Artículos de investigación en IA seleccionados diariamente con traducciones
Este documento presenta el UCFE: User-Centric Financial Expertise benchmark, un marco innovador diseñado para evaluar la capacidad de los modelos de lenguaje grandes (LLMs) para manejar tareas financieras del mundo real complejas. El benchmark UCFE adopta un enfoque híbrido que combina evaluaciones de expertos humanos con interacciones dinámicas específicas de la tarea para simular las complejidades de escenarios financieros en evolución. En primer lugar, realizamos un estudio de usuarios que involucró a 804 participantes, recopilando sus opiniones sobre tareas financieras. En segundo lugar, basándonos en estas opiniones, creamos nuestro conjunto de datos que abarca una amplia gama de intenciones e interacciones de los usuarios. Este conjunto de datos sirve como base para evaluar 12 servicios LLM utilizando la metodología LLM-como-Juez. Nuestros resultados muestran una alineación significativa entre las puntuaciones del benchmark y las preferencias humanas, con un coeficiente de correlación de Pearson de 0.78, confirmando la efectividad del conjunto de datos UCFE y nuestro enfoque de evaluación. El benchmark UCFE no solo revela el potencial de los LLMs en el sector financiero, sino que también proporciona un marco sólido para evaluar su rendimiento y la satisfacción del usuario. El conjunto de datos del benchmark y el código de evaluación están disponibles.
Los modelos de lenguaje grandes (LLMs) han ganado recientemente mucha atención en la construcción de agentes autónomos. Sin embargo, el rendimiento de los actuales agentes web basados en LLM en tareas de largo horizonte está lejos de ser óptimo, a menudo resultando en errores como la compra repetida de un boleto de avión no reembolsable. En contraste, los humanos pueden evitar tal error irreversible, ya que tenemos conciencia de los posibles resultados (por ejemplo, la pérdida de dinero) de nuestras acciones, también conocido como "modelo del mundo". Motivado por esto, nuestro estudio comienza primero con análisis preliminares, confirmando la ausencia de modelos del mundo en los actuales LLMs (por ejemplo, GPT-4o, Claude-3.5-Sonnet, etc.). Luego, presentamos un agente web aumentado con un modelo del mundo (WMA), que simula los resultados de sus acciones para una mejor toma de decisiones. Para superar los desafíos en el entrenamiento de LLMs como modelos del mundo que predicen las siguientes observaciones, como elementos repetidos entre observaciones y entradas HTML largas, proponemos una abstracción de observación centrada en la transición, donde los objetivos de predicción son descripciones en lenguaje natural de forma libre que resaltan exclusivamente las diferencias de estado importantes entre pasos de tiempo. Experimentos en WebArena y Mind2Web muestran que nuestros modelos del mundo mejoran la selección de políticas de los agentes sin entrenamiento y demuestran la eficiencia en costos y tiempo de nuestros agentes en comparación con agentes recientes basados en búsqueda de árboles.
Los modelos visión-lenguaje (VLMs) han avanzado significativamente en los últimos benchmarks de pregunta-respuesta visual (VQA) que evalúan un razonamiento visio-lingüístico complejo. Sin embargo, ¿son realmente efectivos estos modelos? En este trabajo, demostramos que los VLMs todavía tienen dificultades con imágenes naturales y preguntas que los humanos pueden responder fácilmente, a las que denominamos muestras adversarias naturales. También descubrimos que es sorprendentemente fácil generar estas muestras VQA a partir de corpora de imágenes y texto naturales utilizando modelos listos para usar como CLIP y ChatGPT. Proponemos un enfoque semiautomatizado para recopilar un nuevo benchmark, NaturalBench, para evaluar de manera confiable los VLMs con 10,000 muestras VQA verificadas por humanos. Es crucial destacar que adoptamos un diseño centrado en la visión al emparejar cada pregunta con dos imágenes que arrojan respuestas diferentes, evitando que las soluciones ciegas respondan sin utilizar las imágenes. Esto hace que NaturalBench sea más desafiante que benchmarks anteriores que pueden resolverse con conocimientos previos comunes. Evaluamos 53 VLMs de última generación en NaturalBench, mostrando que modelos como LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL e incluso GPT-4o se rezagan un 50%-70% detrás del rendimiento humano (más del 90%). Analizamos por qué NaturalBench es difícil desde dos perspectivas: (1) Composicionalidad: Resolver NaturalBench requiere habilidades visio-lingüísticas diversas, incluyendo la comprensión de asociaciones de atributos, relaciones entre objetos y razonamientos avanzados como lógica y conteo. Con este fin, a diferencia de trabajos anteriores que utilizan una etiqueta única por muestra, etiquetamos cada muestra de NaturalBench con 1 a 8 etiquetas de habilidades para una evaluación detallada. (2) Sesgos: NaturalBench expone sesgos severos en los VLMs, ya que los modelos a menudo eligen la misma respuesta independientemente de la imagen. Por último, aplicamos nuestro método de curación de benchmarks a diversas fuentes de datos, incluyendo subtítulos largos (más de 100 palabras) y idiomas no ingleses como chino e hindi, resaltando su potencial para evaluaciones dinámicas de VLMs.
Los recientes avances en modelos de difusión texto-a-imagen (T2I) han permitido la creación de imágenes de alta calidad a partir de indicaciones de texto, pero aún tienen dificultades para generar imágenes con un control preciso sobre conceptos visuales específicos. Los enfoques existentes pueden replicar un concepto dado al aprender de imágenes de referencia, sin embargo, carecen de la flexibilidad para la personalización detallada de los componentes individuales dentro del concepto. En este documento, presentamos la personalización controlable de componentes, una tarea novedosa que amplía los límites de los modelos T2I al permitir a los usuarios reconfigurar componentes específicos al personalizar conceptos visuales. Esta tarea es particularmente desafiante debido a dos obstáculos principales: la contaminación semántica, donde elementos visuales no deseados corrompen el concepto personalizado, y el desequilibrio semántico, que provoca un aprendizaje desproporcionado del concepto y del componente. Para superar estos desafíos, diseñamos MagicTailor, un marco innovador que aprovecha la Degradación Dinámica Enmascarada (DM-Deg) para perturbar dinámicamente semánticas visuales no deseadas y el Equilibrio de Doble Flujo (DS-Bal) para establecer un paradigma de aprendizaje equilibrado para semánticas visuales deseadas. Comparaciones extensas, abstracciones y análisis demuestran que MagicTailor no solo sobresale en esta desafiante tarea, sino que también tiene un gran potencial para aplicaciones prácticas, allanando el camino para una generación de imágenes más matizada y creativa.
La atención es la piedra angular de los Modelos de Lenguaje Grandes (LLMs) modernos. Sin embargo, su complejidad cuadrática limita la eficiencia y escalabilidad de los LLMs, especialmente para aquellos con una ventana de contexto larga. Un enfoque prometedor para abordar esta limitación es aprovechar la dispersión en la atención. Sin embargo, las soluciones basadas en dispersión existentes dependen predominantemente de patrones predefinidos o heurísticas para aproximar la dispersión. Esta práctica no logra capturar completamente la naturaleza dinámica de la dispersión de la atención en tareas basadas en lenguaje. Este artículo argumenta que la dispersión de la atención debería ser aprendida en lugar de predefinida. Con este fin, diseñamos SeerAttention, un nuevo mecanismo de Atención que complementa la atención convencional con una compuerta aprendible que selecciona de manera adaptativa bloques significativos en un mapa de atención y considera que el resto de los bloques son dispersos. Esta dispersión a nivel de bloque equilibra eficazmente la precisión y la aceleración. Para permitir el aprendizaje eficiente de la red de compuertas, desarrollamos una implementación FlashAttention personalizada que extrae la verdad fundamental a nivel de bloque del mapa de atención con un mínimo costo adicional. SeerAttention no solo se aplica al post-entrenamiento, sino que también sobresale en el ajuste fino de largo contexto. Nuestros resultados muestran que en las etapas de post-entrenamiento, SeerAttention supera significativamente a los métodos de atención dispersa estáticos o basados en heurísticas de última generación, al mismo tiempo que es más versátil y flexible para adaptarse a diferentes longitudes de contexto y ratios de dispersión. Cuando se aplica al ajuste fino de largo contexto con YaRN, SeerAttention puede lograr un notable ratio de dispersión del 90% en una longitud de contexto de 32k con una pérdida de perplejidad mínima, ofreciendo una aceleración de 5.67 veces sobre FlashAttention-2.
La naturaleza es infinitamente libre de resolución. En el contexto de esta realidad, los modelos de difusión existentes, como los Transformadores de Difusión, a menudo enfrentan desafíos al procesar resoluciones de imágenes fuera de su dominio entrenado. Para abordar esta limitación, conceptualizamos las imágenes como secuencias de tokens con tamaños dinámicos, en lugar de los métodos tradicionales que perciben las imágenes como cuadrículas de resolución fija. Esta perspectiva permite una estrategia de entrenamiento flexible que acomoda sin problemas varias relaciones de aspecto durante tanto el entrenamiento como la inferencia, promoviendo así la generalización de resolución y eliminando sesgos introducidos por el recorte de imágenes. Sobre esta base, presentamos el Transformador de Visión Flexible (FiT), una arquitectura de transformer diseñada específicamente para generar imágenes con resoluciones y relaciones de aspecto ilimitadas. Mejoramos aún más el FiT a FiTv2 con varios diseños innovadores, incluyendo la normalización del vector de Consulta-Clave, el módulo AdaLN-LoRA, un programador de flujo rectificado y un muestreador Logit-Normal. Potenciado por una estructura de red meticulosamente ajustada, FiTv2 exhibe una velocidad de convergencia 2 veces mayor que FiT. Al incorporar técnicas avanzadas de extrapolación sin entrenamiento, FiTv2 demuestra una notable adaptabilidad tanto en la extrapolación de resolución como en la generación de resoluciones diversas. Además, nuestra exploración de la escalabilidad del modelo FiTv2 revela que los modelos más grandes muestran una mejor eficiencia computacional. Además, presentamos una estrategia eficiente de post-entrenamiento para adaptar un modelo pre-entrenado para la generación de alta resolución. Experimentos exhaustivos demuestran el rendimiento excepcional de FiTv2 en una amplia gama de resoluciones. Hemos publicado todos los códigos y modelos en https://github.com/whlzy/FiT para promover la exploración de modelos de transformer de difusión para la generación de imágenes de resolución arbitraria.
Las proteínas son macromoléculas esenciales definidas por sus secuencias de aminoácidos, que determinan sus estructuras tridimensionales y, en consecuencia, sus funciones en todos los organismos vivos. Por lo tanto, el modelado generativo de proteínas requiere un enfoque multimodal para modelar, entender y generar simultáneamente tanto secuencias como estructuras. Sin embargo, los métodos existentes suelen utilizar modelos separados para cada modalidad, lo que limita su capacidad para capturar las complejas relaciones entre secuencia y estructura. Esto resulta en un rendimiento subóptimo en tareas que requieren una comprensión conjunta y generación de ambas modalidades. En este documento, presentamos DPLM-2, un modelo base de proteínas multimodal que extiende el modelo de lenguaje de proteínas de difusión discreta (DPLM) para dar cabida tanto a secuencias como estructuras. Para permitir el aprendizaje estructural con el modelo de lenguaje, las coordenadas 3D se convierten en tokens discretos utilizando un tokenizador basado en cuantificación sin búsqueda. Al entrenar tanto con estructuras experimentales como con estructuras sintéticas de alta calidad, DPLM-2 aprende la distribución conjunta de secuencia y estructura, así como sus marginales y condicionales. También implementamos una estrategia eficiente de calentamiento para aprovechar la conexión entre los datos evolutivos a gran escala y los sesgos inductivos estructurales de los modelos de lenguaje de proteínas preentrenados basados en secuencias. La evaluación empírica muestra que DPLM-2 puede generar simultáneamente secuencias de aminoácidos altamente compatibles y sus estructuras 3D correspondientes, eliminando la necesidad de un enfoque de generación en dos etapas. Además, DPLM-2 demuestra un rendimiento competitivo en varias tareas de generación condicional, incluyendo plegamiento, plegamiento inverso y andamiaje con entradas de motivos multimodales, así como proporcionando representaciones conscientes de la estructura para tareas predictivas.
GPT-4o, un modelo integral, representa un hito en el desarrollo de grandes modelos de lenguaje multimodales. Puede comprender modalidades visuales, auditivas y textuales, generar directamente audio y admitir interacción dúplex flexible. Los modelos de la comunidad de código abierto a menudo logran algunas funcionalidades de GPT-4o, como comprensión visual y chat de voz. Sin embargo, entrenar un modelo unificado que incorpore todas las modalidades es un desafío debido a las complejidades de los datos multimodales, las intrincadas arquitecturas de modelos y los procesos de entrenamiento. En este documento, presentamos Mini-Omni2, un asistente visual-auditivo capaz de proporcionar respuestas de voz en tiempo real de extremo a extremo a consultas visuales y auditivas. Al integrar codificadores visuales y auditivos preentrenados, Mini-Omni2 mantiene el rendimiento en modalidades individuales. Proponemos un proceso de entrenamiento de tres etapas para alinear las modalidades, lo que permite que el modelo de lenguaje maneje entradas y salidas multimodales después de entrenar con un conjunto de datos limitado. Para la interacción, presentamos un mecanismo de interrupción basado en comandos, que permite una interacción más flexible con los usuarios. Hasta donde sabemos, Mini-Omni2 es una de las reproducciones más cercanas de GPT-4o, que tienen una forma similar de funcionalidad, y esperamos que pueda ofrecer ideas valiosas para investigaciones posteriores.
Presentamos Hybrid Autoregressive Transformer (HART), un modelo generativo visual autoregresivo capaz de generar directamente imágenes de 1024x1024, compitiendo con modelos de difusión en calidad de generación de imágenes. Los modelos AR existentes enfrentan limitaciones debido a la pobre calidad de reconstrucción de imágenes de sus tokenizadores discretos y los costos prohibitivos de entrenamiento asociados con la generación de imágenes de 1024px. Para abordar estos desafíos, presentamos el tokenizador híbrido, que descompone los latentes continuos del autoencoder en dos componentes: tokens discretos que representan la imagen general y tokens continuos que representan los componentes residuales que no pueden ser representados por los tokens discretos. El componente discreto es modelado por un modelo AR discreto de resolución escalable, mientras que el componente continuo se aprende con un módulo de difusión residual liviano con solo 37M parámetros. En comparación con el tokenizador VAR solo discreto, nuestro enfoque híbrido mejora el FID de reconstrucción de 2.11 a 0.30 en MJHQ-30K, lo que conlleva a una mejora del FID de generación del 31% de 7.85 a 5.38. HART también supera a los modelos de difusión de última generación tanto en FID como en puntaje CLIP, con un rendimiento 4.5-7.7 veces mayor y un consumo de MACs 6.9-13.4 veces menor. Nuestro código está disponible en https://github.com/mit-han-lab/hart.
Los datos de baja calidad o escasos han planteado desafíos significativos para el entrenamiento de redes neuronales profundas en la práctica. Mientras que la ampliación de datos clásica no puede aportar datos nuevos muy diferentes, los modelos de difusión abren una nueva puerta para construir una IA autoevolutiva generando datos sintéticos de alta calidad y diversos a través de indicaciones guiadas por texto. Sin embargo, la guía solo por texto no puede controlar la proximidad de las imágenes sintéticas a las imágenes originales, lo que resulta en datos fuera de distribución perjudiciales para el rendimiento del modelo. Para superar esta limitación, estudiamos la guía de imágenes para lograr un espectro de interpolaciones entre imágenes sintéticas y reales. Con una guía de imagen más fuerte, las imágenes generadas son similares a los datos de entrenamiento pero difíciles de aprender. Mientras que con una guía de imagen más débil, las imágenes sintéticas serán más fáciles para el modelo pero contribuirán a una brecha de distribución más grande con los datos originales. El espectro completo de datos generado nos permite construir un nuevo "Currículo de Difusión (DisCL)". DisCL ajusta el nivel de guía de imagen de la síntesis de imágenes para cada etapa de entrenamiento: identifica y se enfoca en muestras difíciles para el modelo y evalúa el nivel de guía más efectivo de las imágenes sintéticas para mejorar el aprendizaje de datos difíciles. Aplicamos DisCL a dos tareas desafiantes: clasificación de larga cola (LT) y aprendizaje a partir de datos de baja calidad. Se enfoca en imágenes de baja guía de alta calidad para aprender características prototípicas como calentamiento antes de aprender imágenes de alta guía que podrían ser débiles en diversidad o calidad. Experimentos extensos muestran una mejora del 2.7% y 2.1% en macro precisión OOD e ID al aplicar DisCL al conjunto de datos iWildCam. En ImageNet-LT, DisCL mejora la precisión de las clases de cola del modelo base del 4.4% al 23.64% y conduce a una mejora del 4.02% en la precisión de todas las clases.
El rápido desarrollo de Modelos de Lenguaje Autoregresivos (LLMs, por sus siglas en inglés) ha mejorado significativamente la calidad de los textos generados, lo que hace necesario contar con detectores de textos generados por máquinas confiables. Ha surgido una gran cantidad de detectores y colecciones con fragmentos de IA, y varios métodos de detección incluso han mostrado una calidad de reconocimiento de hasta el 99.9% según las métricas objetivo en dichas colecciones. Sin embargo, la calidad de estos detectores tiende a disminuir drásticamente en entornos no controlados, planteando la pregunta: ¿Son los detectores realmente altamente confiables o sus altas puntuaciones de referencia provienen de la baja calidad de los conjuntos de datos de evaluación? En este documento, enfatizamos la necesidad de métodos robustos y cualitativos para evaluar los datos generados, a fin de estar protegidos contra el sesgo y la baja capacidad de generalización de los modelos futuros. Presentamos una revisión sistemática de conjuntos de datos de competiciones dedicadas a la detección de contenido generado por IA y proponemos métodos para evaluar la calidad de los conjuntos de datos que contienen fragmentos generados por IA. Además, discutimos la posibilidad de utilizar datos generados de alta calidad para lograr dos objetivos: mejorar el entrenamiento de los modelos de detección y mejorar los propios conjuntos de datos de entrenamiento. Nuestra contribución tiene como objetivo facilitar una mejor comprensión de la dinámica entre el texto humano y el generado por máquinas, lo que en última instancia respaldará la integridad de la información en un mundo cada vez más automatizado.
La generación de cabezas parlantes tiene como objetivo producir videos de cabezas parlantes vívidos y realistas a partir de un solo retrato y un clip de audio de voz. Aunque se ha avanzado significativamente en la generación de cabezas parlantes basada en difusión, casi todos los métodos dependen de estrategias autoregresivas, que sufren de una utilización limitada del contexto más allá del paso de generación actual, acumulación de errores y una velocidad de generación más lenta. Para abordar estos desafíos, presentamos DAWN (Avatar de cuadro dinámico con difusión no autoregresiva), un marco que permite la generación de secuencias de video de longitud dinámica de una sola vez. Específicamente, consta de dos componentes principales: (1) generación holística de dinámicas faciales impulsada por audio en el espacio de movimiento latente, y (2) generación de postura de cabeza y parpadeo impulsada por audio. Experimentos extensos demuestran que nuestro método genera videos auténticos y vívidos con movimientos precisos de labios, y movimientos naturales de postura/parpadeo. Además, con una alta velocidad de generación, DAWN posee fuertes capacidades de extrapolación, asegurando la producción estable de videos largos de alta calidad. Estos resultados resaltan la considerable promesa y el impacto potencial de DAWN en el campo de la generación de videos de cabezas parlantes. Además, esperamos que DAWN estimule una mayor exploración de enfoques no autoregresivos en modelos de difusión. Nuestro código estará disponible públicamente en https://github.com/Hanbo-Cheng/DAWN-pytorch.
Presentamos BiGR, un novedoso modelo condicional de generación de imágenes que utiliza códigos latentes binarios compactos para el entrenamiento generativo, centrándose en mejorar tanto las capacidades de generación como de representación. BiGR es el primer modelo generativo condicional que unifica la generación y la discriminación dentro del mismo marco de trabajo. BiGR cuenta con un tokenizador binario, un mecanismo de modelado enmascarado y un transcodificador binario para la predicción de códigos binarios. Además, introducimos un novedoso método de muestreo ordenado por entropía para habilitar una generación eficiente de imágenes. Experimentos extensos validan el rendimiento superior de BiGR en calidad de generación, medida por FID-50k, y en capacidades de representación, como se evidencia por la precisión de la sonda lineal. Además, BiGR demuestra una generalización de cero disparos en diversas tareas de visión, permitiendo aplicaciones como rellenado de imágenes, creación de imágenes, edición, interpolación y enriquecimiento, sin necesidad de modificaciones estructurales. Nuestros hallazgos sugieren que BiGR unifica de manera efectiva las tareas generativas y discriminativas, allanando el camino para futuros avances en el campo.
Los humanos adquieren conocimiento observando el mundo externo, pero también a través de la introspección. La introspección brinda a una persona acceso privilegiado a su estado mental actual (por ejemplo, pensamientos y sentimientos) que no es accesible para observadores externos. ¿Pueden los LLMs introspectar? Definimos la introspección como la adquisición de conocimiento que no está contenido en los datos de entrenamiento ni se deriva de ellos, sino que se origina a partir de estados internos. Tal capacidad podría mejorar la interpretabilidad del modelo. En lugar de analizar minuciosamente el funcionamiento interno de un modelo, podríamos simplemente preguntarle al modelo sobre sus creencias, modelos del mundo y objetivos. De manera más especulativa, un modelo introspectivo podría informar sobre si posee ciertos estados internos como sentimientos subjetivos o deseos, lo que podría proporcionar información sobre el estatus moral de estos estados. Tales autorreportes no estarían completamente dictados por los datos de entrenamiento del modelo. Estudiamos la introspección al ajustar finamente LLMs para predecir propiedades de su propio comportamiento en escenarios hipotéticos. Por ejemplo, "Dado el input P, ¿preferiría tu output la opción a corto o largo plazo?" Si un modelo M1 puede introspectar, debería superar a un modelo diferente M2 en predecir el comportamiento de M1 incluso si M2 está entrenado en el comportamiento real de M1. La idea es que M1 tiene acceso privilegiado a sus propias tendencias de comportamiento, lo que le permite predecirse a sí mismo mejor que M2 (incluso si M2 es generalmente más fuerte). En experimentos con los modelos GPT-4, GPT-4o y Llama-3 (cada uno ajustado finamente para predecirse a sí mismo), encontramos que el modelo M1 supera a M2 en predecirse a sí mismo, proporcionando evidencia de introspección. Es notable que M1 continúa prediciendo su comportamiento con precisión incluso después de modificar intencionalmente su comportamiento real. Sin embargo, aunque logramos inducir introspección en tareas simples, no tuvimos éxito en tareas más complejas o que requieren generalización fuera de la distribución.
Presentamos Shakti, un modelo de lenguaje de 2.5 mil millones de parámetros específicamente optimizado para entornos con recursos limitados como dispositivos periféricos, incluidos teléfonos inteligentes, dispositivos ponibles y sistemas IoT. Shakti combina un NLP de alto rendimiento con eficiencia y precisión optimizadas, lo que lo hace ideal para aplicaciones de IA en tiempo real donde los recursos computacionales y la memoria son limitados. Con soporte para idiomas vernáculos y tareas específicas de dominio, Shakti sobresale en industrias como la salud, finanzas y servicio al cliente. Las evaluaciones de referencia demuestran que Shakti tiene un rendimiento competitivo frente a modelos más grandes, manteniendo una baja latencia y eficiencia en el dispositivo, lo que lo posiciona como una solución líder para la IA periférica.
No todos los parámetros aprendibles (por ejemplo, pesos) contribuyen de manera igual a la función de decisión de una red neuronal. De hecho, a veces los parámetros de capas enteras pueden restablecerse a valores aleatorios con poco o ningún impacto en las decisiones del modelo. Revisamos estudios anteriores que examinaron cómo la arquitectura y la complejidad de la tarea influyen en este fenómeno y nos preguntamos: ¿este fenómeno también se ve afectado por cómo entrenamos el modelo? Realizamos evaluaciones experimentales en un conjunto diverso de modelos de clasificación de ImageNet-1k para explorar esto, manteniendo constante la arquitectura y los datos de entrenamiento pero variando el proceso de entrenamiento. Nuestros hallazgos revelan que el método de entrenamiento influye fuertemente en qué capas se vuelven críticas para la función de decisión de una tarea dada. Por ejemplo, los regímenes de entrenamiento mejorados y el entrenamiento auto-supervisado aumentan la importancia de las capas tempranas mientras subutilizan significativamente las capas más profundas. En contraste, métodos como el entrenamiento adversarial muestran una tendencia opuesta. Nuestros resultados preliminares amplían hallazgos anteriores, ofreciendo una comprensión más matizada de los mecanismos internos de las redes neuronales. Código: https://github.com/paulgavrikov/layer_criticality
¿Interfiere la República Popular China (RPC) en las elecciones europeas a través de los medios de la diáspora china étnica? Esta cuestión constituye la base de un proyecto de investigación en curso que explora cómo las narrativas de la RPC sobre las elecciones europeas están representadas en los medios de la diáspora china, y por ende, los objetivos de la manipulación de noticias de la RPC. Para estudiar eficientemente y a gran escala los medios de la diáspora, es necesario utilizar técnicas derivadas del análisis cuantitativo de texto, como el modelado de temas. En este documento, presentamos un flujo de trabajo para estudiar la dinámica de la información en los medios chinos. En primer lugar, presentamos KeyNMF, un nuevo enfoque para el modelado de temas estáticos y dinámicos utilizando modelos de incrustación contextual basados en transformadores. Proporcionamos evaluaciones de referencia para demostrar que nuestro enfoque es competitivo en varios conjuntos de datos y métricas chinas. En segundo lugar, integramos KeyNMF con métodos existentes para describir la dinámica de la información en sistemas complejos. Aplicamos este flujo de trabajo a datos de cinco sitios de noticias, centrándonos en el período previo a las elecciones parlamentarias europeas de 2024. Nuestros métodos y resultados demuestran la efectividad de KeyNMF para estudiar la dinámica de la información en los medios chinos y sientan las bases para futuros trabajos que aborden preguntas de investigación más amplias.
El Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) se ha convertido en el enfoque predominante para el alineamiento de modelos de lenguaje (LM). En su núcleo, RLHF utiliza una pérdida basada en márgenes para la optimización de preferencias, especificando el comportamiento ideal del LM solo por la diferencia entre las respuestas preferidas y no preferidas. En este artículo, identificamos una trampa común de los métodos basados en márgenes: la falta de especificación del comportamiento ideal del LM en respuestas preferidas y no preferidas individualmente, lo que conlleva a dos consecuencias no deseadas a medida que el margen aumenta: (1) La probabilidad de respuestas no preferidas (por ejemplo, inseguras) puede aumentar, lo que resulta en posibles fallos de alineación de seguridad. (2) La probabilidad de respuestas preferidas puede disminuir, incluso cuando esas respuestas son ideales. Desmitificamos las razones detrás de estos comportamientos problemáticos: las pérdidas basadas en márgenes acoplan el cambio en la probabilidad preferida al gradiente de la no preferida, y viceversa, a menudo evitando que la probabilidad preferida aumente mientras que la no preferida disminuye, y provocando así un aumento o disminución sincronizados en ambas probabilidades. Denominamos a este efecto, inherente en los objetivos basados en márgenes, entrelazamiento de gradientes. Formalmente, derivamos condiciones para objetivos generales de alineación basados en márgenes bajo los cuales el entrelazamiento de gradientes se vuelve preocupante: el producto interno de los gradientes de las log-probabilidades preferidas y no preferidas es grande en relación con las normas de los gradientes individuales. Investigamos teóricamente por qué tales productos internos pueden ser grandes al alinear modelos de lenguaje y validamos empíricamente nuestros hallazgos. Las implicaciones empíricas de nuestro marco se extienden a explicar diferencias importantes en la dinámica de entrenamiento de varios algoritmos de optimización de preferencias, y sugieren diseños de algoritmos potenciales para mitigar el problema de falta de especificación de los métodos basados en márgenes y así mejorar el alineamiento de modelos de lenguaje.
Los modelos de lenguaje grandes (LLMs) son susceptibles a la persuasión, lo cual puede plantear riesgos cuando los modelos se enfrentan a un interlocutor adversario. Damos un primer paso hacia la defensa de los modelos contra la persuasión, argumentando también que la defensa contra la persuasión adversarial (es decir, negativa) es solo la mitad de la ecuación: los modelos también deberían poder aceptar la persuasión beneficiosa (es decir, positiva) para mejorar sus respuestas. Mostramos que optimizar los modelos solo para un lado resulta en un bajo rendimiento en el otro. Para equilibrar la persuasión positiva y negativa, introducimos el Entrenamiento Equilibrado de Persuasión (o PBT), que aprovecha árboles de diálogo recursivos multiagentes para crear datos y entrenar modelos a través de la optimización de preferencias para aceptar la persuasión cuando sea apropiado. El PBT mejora consistentemente la resistencia a la desinformación y la capacidad de ser desafiado, al mismo tiempo que resulta en el mejor rendimiento general en datos holísticos que contienen tanto persuasión positiva como negativa. Esencialmente, demostramos que los modelos PBT son mejores compañeros en debates multiagentes. Descubrimos que sin el PBT, los pares de modelos más fuertes y más débiles tienen un rendimiento inestable, siendo el orden en el que los modelos presentan sus respuestas determinante para que el equipo obtenga el rendimiento del modelo más fuerte o más débil. El PBT conduce a resultados mejores y más estables, y a una menor dependencia del orden, con el modelo más fuerte elevando consistentemente al más débil.
Los datos sintéticos han sido ampliamente utilizados para entrenar grandes modelos de lenguaje, pero su naturaleza generativa introduce inevitablemente señales de aprendizaje ruidosas, no informativas y engañosas. En este documento, proponemos Montessori-Instruct, un nuevo marco de síntesis de datos que adapta la capacidad de síntesis de datos del modelo de lenguaje maestro al proceso de aprendizaje del modelo de lenguaje estudiante. Específicamente, utilizamos la influencia local de los datos sintéticos de entrenamiento en los estudiantes para caracterizar las preferencias de aprendizaje de los estudiantes. Luego, entrenamos el modelo maestro con Optimización de Preferencia Directa (DPO) para generar datos sintéticos adaptados a las preferencias de aprendizaje del estudiante. Experimentos con Llama3-8B-Instruct (maestro) y Llama3-8B (estudiante) en Alpaca Eval y MT-Bench demuestran que Montessori-Instruct supera significativamente a los métodos de síntesis estándar en un 18.35\% y un 46.24% respectivamente. Nuestro método también supera a los datos sintetizados por un modelo maestro más fuerte, GPT-4o. Un análisis adicional confirma los beneficios del aprendizaje del maestro para generar datos de entrenamiento más influyentes en el mejor aprendizaje del estudiante, las ventajas de la influencia local de los datos en la medición precisa de las preferencias del estudiante, y la robustez de Montessori-Instruct en diferentes modelos de estudiantes. Nuestro código y datos están disponibles en https://github.com/cxcscmu/Montessori-Instruct.