Artículos de investigación en IA seleccionados diariamente con traducciones
Proponemos un nuevo punto de referencia financiero de largo contexto, FailSafeQA, diseñado para probar la robustez y la conciencia contextual de los LLMs frente a seis variaciones en las interacciones de la interfaz humana en sistemas de consulta-respuesta basados en LLM en el ámbito financiero. Nos concentramos en dos estudios de caso: Falla de Consulta y Falla de Contexto. En el escenario de Falla de Consulta, perturbamos la consulta original para variar en experiencia de dominio, completitud y precisión lingüística. En el caso de Falla de Contexto, simulamos la carga de documentos degradados, irrelevantes y vacíos. Empleamos la metodología LLM-como-Juez con Qwen2.5-72B-Instruct y utilizamos criterios de calificación detallados para definir y calcular puntajes de Robustez, Fundamentación de Contexto y Cumplimiento para 24 modelos listos para usar. Los resultados sugieren que aunque algunos modelos sobresalen en mitigar las perturbaciones de entrada, deben equilibrar respuestas robustas con la capacidad de abstenerse de alucinar. Notablemente, Palmyra-Fin-128k-Instruct, reconocido como el modelo más cumplidor, mantuvo un sólido rendimiento base pero enfrentó desafíos para mantener predicciones robustas en el 17% de los casos de prueba. Por otro lado, el modelo más robusto, OpenAI o3-mini, fabricó información en el 41% de los casos probados. Los resultados demuestran que incluso los modelos de alto rendimiento tienen un margen significativo para mejorar y resaltan el papel de FailSafeQA como una herramienta para desarrollar LLMs optimizados para la confiabilidad en aplicaciones financieras. El conjunto de datos está disponible en: https://huggingface.co/datasets/Writer/FailSafeQA
Demostramos que el aprendizaje por refuerzo aplicado a grandes modelos de lenguaje (LLMs) mejora significativamente el rendimiento en tareas complejas de codificación y razonamiento. Además, comparamos dos modelos de razonamiento de propósito general - OpenAI o1 y un punto de control inicial de o3 - con un sistema específico de dominio, o1-ioi, que utiliza estrategias de inferencia diseñadas manualmente para competir en la Olimpiada Internacional de Informática (IOI) de 2024. Competimos en vivo en la IOI 2024 con o1-ioi y, utilizando estrategias de prueba diseñadas manualmente, obtuvimos el percentil 49. Bajo restricciones de competencia más flexibles, o1-ioi logró una medalla de oro. Sin embargo, al evaluar modelos posteriores como o3, encontramos que o3 obtiene una medalla de oro sin estrategias específicas de dominio diseñadas manualmente o restricciones flexibles. Nuestros hallazgos muestran que aunque los flujos especializados como o1-ioi ofrecen mejoras sólidas, el modelo de propósito general escalado o3 supera esos resultados sin depender de heurísticas de inferencia diseñadas manualmente. Es destacable que o3 obtiene una medalla de oro en la IOI de 2024 y alcanza una calificación en Codeforces al nivel de competidores humanos de élite. En general, estos resultados indican que escalar el aprendizaje por refuerzo de propósito general, en lugar de depender de técnicas específicas de dominio, ofrece un camino sólido hacia la inteligencia artificial de vanguardia en dominios de razonamiento, como la programación competitiva.
El razonamiento es una capacidad fundamental de los Modelos de Lenguaje Grandes. Mientras que la investigación previa se enfoca predominantemente en mejorar habilidades específicas como matemáticas o generación de código, mejorar el rendimiento en muchas otras tareas de razonamiento sigue siendo un desafío debido a la escasez y fragmentación de datos de entrenamiento. Para abordar este problema, proponemos CodeI/O, un enfoque novedoso que condensa sistemáticamente diversos patrones de razonamiento inherentemente integrados en códigos contextualmente fundamentados, mediante la transformación del código original en un formato de predicción de entrada-salida de código. Al entrenar modelos para predecir entradas/salidas dadas el código y casos de prueba completamente en lenguaje natural como razonamientos en Cadena de Pensamiento (CoT), los exponemos a primitivas de razonamiento universales, como la planificación de flujo lógico, la búsqueda de espacio de estados, la travesía de árboles de decisión y la descomposición modular, al mismo tiempo que se desacopla el razonamiento estructurado de la sintaxis específica del código y se preserva el rigor procedimental. Los resultados experimentales demuestran que CodeI/O conduce a mejoras consistentes en tareas de razonamiento simbólico, científico, lógico, matemático y numérico, y de sentido común. Al igualar las salidas de verdad existentes o volver a ejecutar el código con las entradas predichas, podemos verificar cada predicción y mejorar aún más los CoTs a través de revisiones de múltiples turnos, lo que resulta en CodeI/O++ y logrando un rendimiento superior. Nuestros datos y modelos están disponibles en https://github.com/hkust-nlp/CodeIO.
Los modelos de razonamiento extenso (LRMs) abordan problemas de razonamiento complejos siguiendo largas cadenas de pensamiento (Long CoT) que incorporan reflexión, retroceso y autovalidación. Sin embargo, las técnicas de entrenamiento y los requisitos de datos para inducir Long CoT siguen siendo poco comprendidos. En este trabajo, descubrimos que un modelo de lenguaje extenso (LLM) puede aprender eficazmente el razonamiento Long CoT a través de un ajuste fino supervisado (SFT) eficiente en datos y una adaptación de bajo rango de parámetros (LoRA). Con solo 17k muestras de entrenamiento de larga CoT, el modelo Qwen2.5-32B-Instruct logra mejoras significativas en una amplia gama de pruebas de matemáticas y codificación, incluyendo un 56.7% (+40.0%) en AIME 2024 y un 57.0% (+8.1%) en LiveCodeBench, competitivo con la puntuación del modelo o1-preview propietario de 44.6% y 59.1%. Más importante aún, encontramos que la estructura de Long CoT es crítica para el proceso de aprendizaje, mientras que el contenido de los pasos de razonamiento individuales tiene un impacto mínimo. Las perturbaciones que afectan al contenido, como el entrenamiento en muestras incorrectas o la eliminación de palabras clave de razonamiento, tienen poco impacto en el rendimiento. En contraste, las modificaciones estructurales que interrumpen la coherencia lógica en Long CoT, como mezclar o eliminar pasos de razonamiento, degradan significativamente la precisión. Por ejemplo, un modelo entrenado en muestras de Long CoT con respuestas incorrectas aún logra solo un 3.2% menos de precisión en comparación con el entrenamiento con muestras completamente correctas. Estas percepciones profundizan nuestra comprensión de cómo inducir capacidades de razonamiento en LLMs y resaltan consideraciones clave para entrenar eficientemente la próxima generación de modelos de razonamiento. Este es el artículo académico de nuestro modelo Sky-T1-32B-Preview previamente lanzado. Los códigos están disponibles en https://github.com/NovaSky-AI/SkyThought.
La predicción del movimiento de acciones, una tarea fundamental en el pronóstico de series temporales financieras, requiere identificar y recuperar factores influyentes críticos de grandes cantidades de datos de series temporales. Sin embargo, los métodos de recuperación existentes basados en similitud de texto o numérica no son suficientes para manejar el análisis financiero complejo. Para abordar esto, proponemos el primer marco de generación aumentada por recuperación (RAG) para el pronóstico de series temporales financieras, que presenta tres innovaciones clave: un modelo de lenguaje grande (StockLLM) afinado con 1B parámetros como base, un método novedoso de selección de candidatos que aprovecha la retroalimentación de LLM, y un objetivo de entrenamiento que maximiza la similitud entre consultas y secuencias históricamente significativas. Esto permite que nuestro recuperador, FinSeer, descubra patrones significativos mientras minimiza el ruido en datos financieros complejos. También construimos nuevos conjuntos de datos que integran indicadores financieros y precios históricos de acciones para entrenar a FinSeer y garantizar una evaluación robusta. Los resultados experimentales demuestran que nuestro marco RAG supera al StockLLM básico y a la recuperación aleatoria, destacando su efectividad, mientras que FinSeer supera a los métodos de recuperación existentes, logrando una precisión un 8\% mayor en BIGDATA22 y recuperando secuencias más impactantes. Este trabajo subraya la importancia de modelos de recuperación adaptados en el pronóstico financiero y proporciona un marco novedoso para investigaciones futuras.
En este informe técnico, presentamos Magic 1-For-1 (Magic141), un modelo eficiente de generación de video con consumo de memoria optimizado y latencia de inferencia. La idea clave es simple: factorizar la tarea de generación de texto a video en dos tareas separadas más simples para la destilación de pasos de difusión, a saber, generación de texto a imagen y generación de imagen a video. Verificamos que con el mismo algoritmo de optimización, la tarea de imagen a video es de hecho más fácil de converger que la tarea de texto a video. También exploramos un conjunto de trucos de optimización para reducir el costo computacional de entrenar los modelos de imagen a video (I2V) desde tres aspectos: 1) aceleración de la velocidad de convergencia del modelo mediante la inyección de una condición previa multimodal; 2) aceleración de la latencia de inferencia mediante la aplicación de una destilación de pasos adversarios, y 3) optimización del costo de memoria de inferencia con esparsificación de parámetros. Con estas técnicas, podemos generar clips de video de 5 segundos en 3 segundos. Al aplicar una ventana deslizante en tiempo de prueba, podemos generar un video de un minuto en un minuto con una calidad visual y dinámica de movimiento significativamente mejoradas, gastando menos de 1 segundo en promedio para generar clips de video de 1 segundo. Realizamos una serie de exploraciones preliminares para encontrar el equilibrio óptimo entre el costo computacional y la calidad del video durante la destilación de pasos de difusión y esperamos que este pueda ser un buen modelo base para exploraciones de código abierto. El código y los pesos del modelo están disponibles en https://github.com/DA-Group-PKU/Magic-1-For-1.
Realizamos una investigación empírica del potencial del preentrenamiento de modelos visión-lenguaje a una escala sin precedentes: 100 mil millones de ejemplos. Observamos que el rendimiento del modelo tiende a saturarse a esta escala en muchos benchmarks comunes de clasificación y recuperación centrados en occidente, como COCO Captions. Sin embargo, las tareas de diversidad cultural logran ganancias más sustanciales a partir de los datos web a escala de 100 mil millones, gracias a su cobertura de conceptos de larga cola. Además, analizamos la multilingüidad del modelo y mostramos mejoras en idiomas con recursos limitados. Asimismo, observamos que reducir el tamaño del conjunto de datos de preentrenamiento mediante filtros de calidad como el uso de CLIP, comúnmente utilizado para mejorar el rendimiento, puede reducir inadvertidamente la diversidad cultural representada incluso en conjuntos de datos a gran escala. Nuestros resultados resaltan que, si bien los benchmarks tradicionales pueden no beneficiarse significativamente de escalar datos web ruidosos y sin procesar a 100 mil millones de ejemplos, esta escala de datos es vital para construir sistemas multimodales verdaderamente inclusivos.
Las leyes de escala suelen ajustarse utilizando una familia de modelos con un rango estrecho de elecciones de hiperparámetros congelados. En este trabajo estudiamos las leyes de escala utilizando una amplia gama de arquitecturas y elecciones de hiperparámetros, y destacamos su impacto en las prescripciones resultantes. Como principal artefacto de nuestra investigación, publicamos las Gemstones: el conjunto de datos de leyes de escala de código abierto más completo hasta la fecha, que consta de más de 4000 puntos de control de transformadores con hasta 2 mil millones de parámetros; estos modelos han sido entrenados con diferentes tasas de aprendizaje, programaciones de enfriamiento y formas arquitectónicas. Nuestros puntos de control permiten estudios más complejos de la escala, como una ley que predice el rendimiento del modelado de lenguaje en función del ancho y la profundidad del modelo. Al examinar los diversos aspectos de nuestra suite de modelos, encontramos que las prescripciones de las leyes de escala pueden ser altamente sensibles al proceso de diseño experimental y a los puntos de control de modelos específicos utilizados durante el ajuste. Código: https://github.com/mcleish7/gemstone-scaling-laws
Enseñar a los modelos de lenguaje grandes (LLMs) a criticar y refinar sus salidas es crucial para construir sistemas que puedan mejorar de forma iterativa, pero está fundamentalmente limitado por la capacidad de proporcionar juicios precisos y sugerencias accionables. En este trabajo, estudiamos los críticos de LLM para la generación de código y proponemos CTRL, un marco para el Entrenamiento de Críticos mediante Aprendizaje por Refuerzo, que entrena un modelo crítico para generar retroalimentación que maximiza el rendimiento de corrección para un modelo generador fijo sin supervisión humana. Nuestros resultados demuestran que los críticos entrenados con CTRL mejoran significativamente las tasas de aprobación y mitigan los errores acumulativos en modelos generadores base y más sólidos. Además, mostramos que estos modelos críticos actúan como precisos modelos de recompensa generativos y permiten la escalabilidad en tiempo de prueba a través de la crítica-revisión iterativa, logrando mejoras relativas de hasta un 106.1% en desafiantes bancos de pruebas de generación de código.
La generación de video basada en DiT ha logrado resultados notables, pero la investigación para mejorar los modelos existentes sigue siendo relativamente inexplorada. En este trabajo, presentamos un enfoque sin entrenamiento para mejorar la coherencia y calidad de los videos generados basados en DiT, denominado Mejorar-Un-Video. La idea principal es mejorar las correlaciones entre fotogramas basadas en distribuciones de atención temporal no diagonales. Gracias a su diseño simple, nuestro enfoque puede aplicarse fácilmente a la mayoría de los marcos de generación de video basados en DiT sin necesidad de volver a entrenar o ajustar. A través de varios modelos de generación de video basados en DiT, nuestro enfoque demuestra mejoras prometedoras tanto en consistencia temporal como en calidad visual. Esperamos que esta investigación pueda inspirar futuras exploraciones en la mejora de la generación de video.
Los modelos fundamentales han revolucionado el procesamiento del lenguaje natural y la inteligencia artificial, mejorando significativamente la capacidad de las máquinas para comprender y generar lenguajes humanos. Inspirados por el éxito de estos modelos fundamentales, los investigadores han desarrollado modelos fundamentales para dominios científicos individuales, incluyendo moléculas pequeñas, materiales, proteínas, ADN y ARN. Sin embargo, estos modelos suelen entrenarse de forma aislada, careciendo de la capacidad de integrarse entre diferentes dominios científicos. Reconociendo que las entidades dentro de estos dominios pueden representarse como secuencias, las cuales en conjunto forman el "lenguaje de la naturaleza", presentamos el Modelo de Lenguaje Natural (breve, NatureLM), un modelo fundamental científico basado en secuencias diseñado para el descubrimiento científico. Pre-entrenado con datos de múltiples dominios científicos, NatureLM ofrece un modelo unificado y versátil que permite diversas aplicaciones, incluyendo: (i) generar y optimizar moléculas pequeñas, proteínas, ARN y materiales utilizando instrucciones de texto; (ii) generación/diseño entre dominios, como la generación de proteínas a moléculas y proteínas a ARN; y (iii) lograr un rendimiento de vanguardia en tareas como la traducción de SMILES a IUPAC y la retrosíntesis en USPTO-50k. NatureLM ofrece un enfoque generalista prometedor para diversas tareas científicas, incluyendo el descubrimiento de fármacos (generación/optimización de hits, optimización de ADMET, síntesis), diseño de nuevos materiales y el desarrollo de proteínas o nucleótidos terapéuticos. Hemos desarrollado modelos NatureLM de diferentes tamaños (1 mil millones, 8 mil millones y 46.7 mil millones de parámetros) y observamos una clara mejora en el rendimiento a medida que aumenta el tamaño del modelo.
Debido a la escasez de datos de pre-entrenamiento orientados a agentes, los agentes autónomos basados en LLM suelen depender de indicaciones complejas o un extenso ajuste fino, lo cual a menudo no logra introducir nuevas capacidades manteniendo una fuerte capacidad de generalización. Presentamos Hephaestus-Forge, el primer corpus de pre-entrenamiento a gran escala diseñado para mejorar las capacidades fundamentales de los agentes LLM en la llamada a funciones de API, razonamiento intrínseco y planificación, y adaptación a retroalimentación ambiental. Hephaestus-Forge consta de 103 mil millones de datos específicos de agentes que abarcan 76,537 APIs, incluyendo tanto documentación de herramientas para introducir conocimiento de funciones de API como trayectorias de llamadas a funciones para fortalecer el razonamiento intrínseco. Para explorar protocolos de entrenamiento efectivos, investigamos leyes de escalado para identificar la receta óptima en ratios de mezcla de datos. Al continuar el pre-entrenamiento en Hephaestus-Forge, Hephaestus supera a LLMs de código abierto de pequeña a mediana escala y rivaliza con LLMs comerciales en tres pruebas de agentes, demostrando la efectividad de nuestro corpus de pre-entrenamiento en mejorar las capacidades agentes fundamentales y la generalización de LLMs a nuevas tareas o entornos.
Los métodos recientes de generación de imágenes a video han demostrado éxito al permitir el control sobre uno o dos elementos visuales, como la trayectoria de la cámara o el movimiento del objeto. Sin embargo, estos métodos no pueden ofrecer control sobre múltiples elementos visuales debido a limitaciones en los datos y la eficacia de la red. En este documento, presentamos VidCRAFT3, un marco novedoso para la generación precisa de imágenes a video que permite controlar simultáneamente el movimiento de la cámara, el movimiento del objeto y la dirección de iluminación. Para desacoplar mejor el control sobre cada elemento visual, proponemos el Transformador de Triple Atención Espacial, que integra la dirección de iluminación, texto e imagen de manera simétrica. Dado que la mayoría de los conjuntos de datos de video del mundo real carecen de anotaciones de iluminación, construimos un conjunto de datos de video sintético de alta calidad, el conjunto de datos de Dirección de Iluminación de Video (VLD). Este conjunto de datos incluye anotaciones de dirección de iluminación y objetos de apariencia diversa, lo que permite a VidCRAFT3 manejar de manera efectiva los fuertes efectos de transmisión y reflexión de la luz. Además, proponemos una estrategia de entrenamiento de tres etapas que elimina la necesidad de datos de entrenamiento anotados con múltiples elementos visuales (movimiento de cámara, movimiento de objeto y dirección de iluminación) simultáneamente. Experimentos extensos en conjuntos de datos de referencia demuestran la eficacia de VidCRAFT3 en la producción de contenido de video de alta calidad, superando a los métodos existentes de vanguardia en cuanto a la granularidad del control y la coherencia visual. Todo el código y los datos estarán disponibles públicamente. Página del proyecto: https://sixiaozheng.github.io/VidCRAFT3/.
Presentamos Pippo, un modelo generativo capaz de producir videos detallados de 1K de resolución de una persona a partir de una sola foto tomada casualmente. Pippo es un transformador de difusión multi-vista y no requiere de entradas adicionales, como un modelo paramétrico ajustado o parámetros de cámara de la imagen de entrada. Pre-entrenamos a Pippo en 3 mil millones de imágenes humanas sin subtítulos, y realizamos entrenamiento medio y posterior multi-vista en humanos capturados en estudio. Durante el entrenamiento medio, para absorber rápidamente el conjunto de datos de estudio, eliminamos el ruido de varias vistas (hasta 48) a baja resolución, y codificamos las cámaras objetivo de forma gruesa utilizando un MLP superficial. Durante el entrenamiento posterior, eliminamos el ruido de menos vistas a alta resolución y utilizamos controles alineados con píxeles (por ejemplo, ancla espacial y rayos de Plücker) para permitir generaciones consistentes en 3D. En la inferencia, proponemos una técnica de sesgo de atención que permite a Pippo generar simultáneamente más de 5 veces la cantidad de vistas vistas durante el entrenamiento. Finalmente, también introducimos una métrica mejorada para evaluar la consistencia en 3D de las generaciones multi-vista, y demostramos que Pippo supera a los trabajos existentes en la generación multi-vista de humanos a partir de una sola imagen.
Los modelos de lenguaje grandes (LLMs) a menudo parecen destacarse en pruebas públicas, pero estas puntuaciones altas pueden ocultar una sobrerreliancia en señales superficiales específicas del conjunto de datos en lugar de un verdadero entendimiento del lenguaje. Presentamos el Detector de Sobreajuste de Benchmark Camaleón (C-BOD), un marco de metaevaluación que distorsiona sistemáticamente las indicaciones de las pruebas de referencia a través de una transformación paramétrica y detecta el sobreajuste de los LLMs. Al reformular las entradas mientras se preserva su contenido semántico y etiquetas, C-BOD expone si el rendimiento de un modelo está impulsado por patrones memorizados. Evaluado en el benchmark MMLU utilizando 26 LLMs líderes, nuestro método revela una degradación promedio del rendimiento del 2.15% bajo perturbaciones moderadas, con 20 de 26 modelos mostrando diferencias estadísticamente significativas. Notablemente, los modelos con una precisión de referencia más alta presentan mayores diferencias de rendimiento bajo perturbación, y los LLMs más grandes tienden a ser más sensibles a las reformulaciones, lo que indica que ambos casos pueden depender en exceso de patrones fijos en las indicaciones. En contraste, la familia Llama y los modelos con una precisión de referencia más baja muestran una degradación insignificante, lo que sugiere una dependencia reducida de señales superficiales. Además, el diseño agnóstico al conjunto de datos y al modelo de C-BOD permite una integración fácil en los flujos de entrenamiento para promover un entendimiento del lenguaje más robusto. Nuestros hallazgos desafían a la comunidad a mirar más allá de las puntuaciones en las tablas de clasificación y priorizar la resistencia y la generalización en la evaluación de LLMs.
La gran mayoría de los modelos de recuperación dependen de productos internos de vectores para generar un puntaje de relevancia entre una consulta y un documento. Esto limita naturalmente la expresividad del puntaje de relevancia que se puede utilizar. Proponemos un nuevo paradigma, en lugar de producir un vector para representar la consulta, generamos una pequeña red neuronal que actúa como una función de relevancia aprendida. Esta pequeña red neuronal recibe una representación del documento, en este artículo utilizamos un solo vector, y produce un puntaje de relevancia escalar. Para crear la pequeña red neuronal, utilizamos un hiperred, una red que produce los pesos de otras redes, como nuestro codificador de consulta o como lo llamamos un Hipcodificador. Experimentos en tareas de búsqueda en dominio muestran que el Hipcodificador es capaz de superar significativamente a modelos de recuperación densa sólidos y tiene métricas más altas que modelos de reordenamiento y modelos de un orden de magnitud mayor. Además, se demuestra que el Hipcodificador generaliza bien a tareas de búsqueda fuera de dominio. Para evaluar el alcance de las capacidades del Hipcodificador, evaluamos un conjunto de tareas de recuperación difíciles que incluyen recuperación en la punta de la lengua y tareas de seguimiento de instrucciones, y encontramos que la brecha de rendimiento se amplía sustancialmente en comparación con tareas de recuperación estándar. Además, para demostrar la practicidad de nuestro método, implementamos un algoritmo de búsqueda aproximada y demostramos que nuestro modelo puede buscar 8.8 millones de documentos en menos de 60 ms.
La tecnología de Reconocimiento Óptico de Caracteres (OCR) se utiliza ampliamente para extraer texto de imágenes de documentos, facilitando la digitalización eficiente y la recuperación de datos. Sin embargo, simplemente extraer texto es insuficiente al tratar con documentos complejos. Comprender completamente dichos documentos requiere entender su estructura, incluyendo formato, fórmulas, tablas y el orden de lectura de múltiples bloques y columnas a lo largo de varias páginas, así como información semántica para detectar elementos como notas al pie y leyendas de imágenes. Esta comprensión integral es crucial para tareas posteriores como recuperación, respuesta a preguntas sobre documentos y curación de datos para entrenar Modelos de Lenguaje Grandes (LLMs) y Modelos de Lenguaje Visual (VLMs). Para abordar esto, presentamos 'Éclair, una herramienta de extracción de texto de propósito general diseñada específicamente para procesar una amplia gama de tipos de documentos. Dada una imagen, 'Éclair es capaz de extraer texto formateado en orden de lectura, junto con cuadros delimitadores y sus clases semánticas correspondientes. Para evaluar a fondo estas capacidades novedosas, presentamos nuestro variado banco de pruebas anotado por humanos para OCR a nivel de documento y clasificación semántica. 'Éclair logra una precisión de vanguardia en este banco de pruebas, superando a otros métodos en métricas clave. Además, evaluamos 'Éclair en bancos de pruebas establecidos, demostrando su versatilidad y fortaleza en varios estándares de evaluación.
Los Modelos de Lenguaje Multimodales a Gran Escala (MLLMs) enfrentan dificultades con videos largos debido a la necesidad de tokens visuales excesivos. Estos tokens superan ampliamente la longitud del contexto de los MLLMs, lo que resulta en la inclusión de tomas redundantes e irrelevantes para la tarea. La selección de tomas es un problema crítico no resuelto: el muestreo escaso corre el riesgo de omitir detalles clave, mientras que el muestreo exhaustivo abruma al modelo con contenido irrelevante, lo que conduce a malentendidos en el video. Para resolver este problema, proponemos el enfoque de Encadenamiento de Toma (CoS). La idea clave es enmarcar la selección de tomas como una optimización de indicaciones visuales en tiempo de prueba, eligiendo tomas adaptativas a la tarea semántica de comprensión del video mediante la optimización de la alineación entre las tomas y la tarea. CoS consta de dos partes clave: (1) un mecanismo de resumen de video binario que realiza anclajes temporales pseudo, descubriendo una codificación binaria para identificar tomas relevantes para la tarea, y (2) un módulo de co-raciocinio de video que utiliza la codificación binaria para emparejar (aprender a alinear) tomas positivas relevantes para la tarea con tomas negativas irrelevantes. Incorpora las selecciones de tomas optimizadas en el video original, lo que facilita enfocarse en el contexto relevante para optimizar la comprensión de videos largos. Experimentos realizados en tres líneas de base y cinco conjuntos de datos demuestran la efectividad y adaptabilidad de CoS. El código se encuentra disponible en https://lwpyh.github.io/CoS.
Se ha descubierto que los Modelos de Lenguaje Grandes (LLMs) sufren de dificultades para recuperar con precisión información clave. Para abordar esto, proponemos Predicción Autoregresiva Mejorada por Máscara (MEAP), un paradigma de entrenamiento simple pero efectivo que integra de manera fluida el Modelado de Lenguaje Enmascarado (MLM) en la Predicción del Próximo Token (NTP) para mejorar las capacidades de recuperación en contexto de este último. Específicamente, MEAP primero enmascara aleatoriamente una pequeña fracción de tokens de entrada y luego realiza directamente la predicción estándar del próximo token de forma autoregresiva utilizando un Transformer solo con decodificador. MEAP elimina la necesidad de atención bidireccional o arquitecturas codificador-decodificador para MLM, sin incurrir en sobrecarga computacional adicional durante el pre-entrenamiento o la inferencia. Experimentos intensivos demuestran que MEAP supera sustancialmente a NTP en la recuperación de información clave y tareas de razonamiento de largo contexto, al tiempo que se desempeña igual o mejor en tareas de razonamiento común. Los beneficios de MEAP también se extienden al ajuste fino supervisado, donde muestra ventajas notables en escenarios de "perdido en el medio", superando a NTP en 11.77 puntos porcentuales. Nuestro análisis indica que la efectividad de MEAP surge de su capacidad para promover puntuaciones de atención más distinguibles al concentrarse en un conjunto reducido de tokens no enmascarados. Este mecanismo mejora el enfoque del modelo en señales relevantes para la tarea mientras mitiga la influencia del contexto periférico. Estos hallazgos posicionan a MEAP como un paradigma de entrenamiento prometedor para grandes modelos de lenguaje.
El Diseño Asistido por Computadora (CAD) es indispensable en diversas industrias. La edición de CAD basada en texto, que automatiza la modificación de modelos CAD basándose en instrucciones textuales, tiene un gran potencial pero sigue siendo poco explorada. Los métodos existentes se centran principalmente en la generación de variaciones de diseño o en la generación de CAD basada en texto, careciendo de soporte para el control basado en texto o ignorando los modelos CAD existentes como restricciones. Presentamos CAD-Editor, el primer marco para la edición de CAD basada en texto. Para abordar el desafío de los datos tripletas exigentes con correspondencia precisa para el entrenamiento, proponemos un pipeline automatizado de síntesis de datos. Este pipeline utiliza modelos de variación de diseño para generar pares de modelos CAD originales y editados, y emplea Modelos de Gran Visión-Lenguaje (LVLMs) para resumir sus diferencias en instrucciones de edición. Para abordar la naturaleza compuesta de la edición de CAD basada en texto, proponemos un marco de localización-seguido-de-relleno que descompone la tarea en dos sub-tareas enfocadas: localizar las regiones que requieren modificación y rellenar estas regiones con ediciones apropiadas. Los Modelos de Lenguaje de Gran Tamaño (LLMs) sirven como la base para ambas sub-tareas, aprovechando sus capacidades en comprensión del lenguaje natural y conocimiento de CAD. Los experimentos muestran que CAD-Editor logra un rendimiento superior tanto cuantitativa como cualitativamente.
Presentamos Goedel-Prover, un modelo de lenguaje grande (LLM, por sus siglas en inglés) de código abierto que logra un rendimiento de vanguardia en la generación automatizada de pruebas formales para problemas matemáticos. El desafío principal en este campo es la escasez de enunciados matemáticos y pruebas formalizadas, que abordamos de las siguientes maneras. Entrenamos formalizadores de enunciados para traducir los problemas matemáticos en lenguaje natural de Numina a lenguaje formal (Lean 4), creando un conjunto de datos de 1.64 millones de enunciados formales. Los LLM se utilizan para verificar que los enunciados formales preserven con precisión el contenido de los problemas originales en lenguaje natural. Luego construimos de manera iterativa un extenso conjunto de datos de pruebas formales entrenando una serie de demostradores. Cada demostrador tiene éxito en demostrar muchos enunciados que los anteriores no pudieron, y estas nuevas pruebas se agregan al conjunto de entrenamiento para el siguiente demostrador. El demostrador final supera a todos los modelos de código abierto existentes en la generación de pruebas completas. En el benchmark miniF2F, logra una tasa de éxito del 57.6% (Pass@32), superando al mejor modelo de código abierto anterior en un 7.6%. En PutnamBench, Goedel-Prover resuelve con éxito 7 problemas (Pass@512), clasificándose en primer lugar en la tabla de clasificación. Además, genera 29.7K pruebas formales para problemas de Lean Workbook, casi duplicando las 15.7K producidas por trabajos anteriores.
Para comprender verdaderamente los modelos de visión, no solo debemos interpretar sus características aprendidas, sino también validar estas interpretaciones a través de experimentos controlados. Los enfoques actuales proporcionan características interpretables sin la capacidad de probar su influencia causal, o permiten la edición del modelo sin controles interpretables. Presentamos un marco unificado que utiliza autoencoders dispersos (SAEs) para cerrar esta brecha, lo que nos permite descubrir características visuales interpretables por humanos y manipularlas con precisión para probar hipótesis sobre el comportamiento del modelo. Al aplicar nuestro método a modelos de visión de última generación, revelamos diferencias clave en las abstracciones semánticas aprendidas por modelos con diferentes objetivos de pre-entrenamiento. Luego demostramos el uso práctico de nuestro marco a través de intervenciones controladas en múltiples tareas de visión. Mostramos que los SAEs pueden identificar y manipular de manera confiable características visuales interpretables sin necesidad de volver a entrenar el modelo, lo que proporciona una herramienta poderosa para comprender y controlar el comportamiento de los modelos de visión. Proporcionamos código, demos y modelos en nuestro sitio web del proyecto: https://osu-nlp-group.github.io/SAE-V.
El almacenamiento en caché de indicaciones en modelos de lenguaje grandes (LLMs) resulta en variaciones temporales dependientes de los datos: las indicaciones en caché se procesan más rápido que las indicaciones no almacenadas en caché. Estas diferencias temporales introducen el riesgo de ataques de temporización de canal lateral. Por ejemplo, si la caché se comparte entre usuarios, un atacante podría identificar indicaciones en caché a partir de los tiempos de respuesta rápida de la API para aprender información sobre las indicaciones de otros usuarios. Debido a que el almacenamiento en caché de indicaciones puede causar fugas de privacidad, es importante la transparencia en torno a las políticas de almacenamiento en caché de los proveedores de API. Con este fin, desarrollamos y realizamos auditorías estadísticas para detectar el almacenamiento en caché de indicaciones en proveedores de API de LLM del mundo real. Detectamos el intercambio global de caché entre usuarios en siete proveedores de API, incluido OpenAI, lo que resulta en posibles fugas de privacidad sobre las indicaciones de los usuarios. Las variaciones temporales debido al almacenamiento en caché de indicaciones también pueden resultar en la fuga de información sobre la arquitectura del modelo. Específicamente, encontramos evidencia de que el modelo de incrustación de OpenAI es un Transformer solo decodificador, lo cual no se conocía públicamente anteriormente.
Los humanos destacan en reutilizar conocimientos previos para abordar nuevos desafíos y desarrollar habilidades mientras resuelven problemas. Este paradigma se vuelve cada vez más popular en el desarrollo de agentes autónomos, ya que crea sistemas que pueden autoevolucionar en respuesta a nuevos desafíos como lo hacen los seres humanos. Sin embargo, los métodos anteriores sufren de una eficiencia de entrenamiento limitada al expandir nuevas habilidades y no logran aprovechar completamente el conocimiento previo para facilitar el aprendizaje de nuevas tareas. En este documento, proponemos Expansión y Composición de Habilidades Paramétricas (PSEC), un nuevo marco diseñado para evolucionar de forma iterativa las capacidades de los agentes y abordar eficientemente nuevos desafíos al mantener una biblioteca de habilidades manejable. Esta biblioteca puede integrar progresivamente primitivas de habilidades como módulos de Adaptación de Bajo Rango (LoRA) plug-and-play en un ajuste fino eficiente en parámetros, facilitando una expansión de habilidades eficiente y flexible. Esta estructura también permite las composiciones directas de habilidades en el espacio de parámetros al fusionar módulos LoRA que codifican diferentes habilidades, aprovechando la información compartida entre habilidades para programar eficazmente nuevas habilidades. Basándonos en esto, proponemos un módulo consciente del contexto para activar dinámicamente diferentes habilidades y abordar colaborativamente nuevas tareas. Potenciando diversas aplicaciones que incluyen composición multiobjetivo, cambio de dinámicas y cambio continuo de políticas, los resultados en D4RL, DSRL y en la DeepMind Control Suite muestran que PSEC exhibe una capacidad superior para aprovechar el conocimiento previo y abordar eficientemente nuevos desafíos, así como expandir sus bibliotecas de habilidades para evolucionar las capacidades. Sitio web del proyecto: https://ltlhuuu.github.io/PSEC/.
Los grandes modelos de lenguaje han revolucionado el procesamiento del lenguaje natural a través de preentrenamiento auto-supervisado en conjuntos de datos masivos. Inspirados por este éxito, los investigadores han explorado la adaptación de estos métodos al habla mediante la discretización de audio continuo en tokens utilizando códecs neurales de audio. Sin embargo, los enfoques existentes enfrentan limitaciones, incluyendo altas tasas de bits, la pérdida de información semántica o acústica, y la dependencia de diseños de múltiples codebooks al intentar capturar ambos aspectos, lo que aumenta la complejidad arquitectónica para tareas posteriores. Para abordar estos desafíos, presentamos FocalCodec, un códec eficiente de baja tasa de bits basado en modulación focal que utiliza un único codebook binario para comprimir el habla entre 0.16 y 0.65 kbps. FocalCodec ofrece un rendimiento competitivo en la resíntesis del habla y la conversión de voz a tasas de bits más bajas que el estado del arte actual, mientras maneja de manera efectiva el habla multilingüe y entornos ruidosos. La evaluación en tareas posteriores muestra que FocalCodec preserva con éxito información semántica y acústica suficiente, siendo también adecuado para modelado generativo. Ejemplos de demostración, código y puntos de control están disponibles en https://lucadellalib.github.io/focalcodec-web/.
Los Modelos de Lenguaje Grande y Modelos de Visión-Lenguaje (LLMs/VLMs) se utilizan cada vez más en aplicaciones críticas para la seguridad, sin embargo, su toma de decisiones opaca complica la evaluación de riesgos y la fiabilidad. La cuantificación de incertidumbre (UQ) ayuda a evaluar la confianza en las predicciones y permite la abstención cuando la incertidumbre es alta. La predicción conforme (CP), un método líder de UQ, proporciona garantías estadísticas pero se basa en umbrales estáticos, que no se adaptan a la complejidad de la tarea y a las distribuciones de datos cambiantes, lo que lleva a compensaciones subóptimas en precisión, cobertura e informatividad. Para abordar esto, proponemos la abstención conforme aprendible, integrando el aprendizaje por refuerzo (RL) con CP para optimizar dinámicamente los umbrales de abstención. Al tratar los umbrales de CP como acciones adaptables, nuestro enfoque equilibra múltiples objetivos, minimizando el tamaño del conjunto de predicciones manteniendo una cobertura fiable. Evaluaciones extensas en diversos benchmarks de LLM/VLM muestran que nuestro método supera a los Clasificadores Menos Ambiguos (LAC) y a los Conjuntos de Predicción Adaptativos (APS), mejorando la precisión hasta un 3.2%, aumentando el AUROC para la detección de alucinaciones en un 22.19%, mejorando la generación selectiva guiada por incertidumbre (AUARC) en un 21.17%, y reduciendo el error de calibración en un 70%-85%. Estas mejoras se mantienen en varios modelos y conjuntos de datos, cumpliendo consistentemente el objetivo de cobertura del 90%, estableciendo nuestro enfoque como una solución más efectiva y flexible para la toma de decisiones fiable en aplicaciones críticas para la seguridad. El código está disponible en: {https://github.com/sinatayebati/vlm-uncertainty}.