Artículos de investigación en IA seleccionados diariamente con traducciones
Introducimos métodos para cuantificar cómo los Modelos de Lenguaje a Gran Escala (LLMs) codifican y almacenan información contextual, revelando que tokens a menudo considerados menores (por ejemplo, determinantes, puntuación) contienen un contexto sorprendentemente alto. En particular, eliminar estos tokens —especialmente palabras vacías, artículos y comas— degrada consistentemente el rendimiento en MMLU y BABILong-4k, incluso si solo se eliminan tokens irrelevantes. Nuestro análisis también muestra una fuerte correlación entre contextualización y linealidad, donde la linealidad mide cuán cercanamente puede aproximarse la transformación de las incrustaciones de una capa a la siguiente mediante un mapeo lineal único. Estos hallazgos subrayan la importancia oculta de los tokens de relleno en el mantenimiento del contexto. Para una exploración más profunda, presentamos LLM-Microscope, un kit de herramientas de código abierto que evalúa la no linealidad a nivel de token, mide la memoria contextual, visualiza las contribuciones de las capas intermedias (mediante una versión adaptada de Logit Lens) y calcula la dimensionalidad intrínseca de las representaciones. Este kit de herramientas ilumina cómo tokens aparentemente triviales pueden ser críticos para la comprensión de largo alcance.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades excepcionales de comprensión y una amplia base de conocimientos, lo que sugiere que los LLMs pueden servir como herramientas eficientes para la generación automatizada de encuestas. Sin embargo, investigaciones recientes relacionadas con la generación automatizada de encuestas siguen estando limitadas por algunas restricciones críticas, como una ventana de contexto finita, la falta de discusión en profundidad del contenido y la ausencia de marcos de evaluación sistemáticos. Inspirados por los procesos de escritura humana, proponemos SurveyX, un sistema eficiente y organizado para la generación automatizada de encuestas que descompone el proceso de composición de encuestas en dos fases: la fase de Preparación y la fase de Generación. Al introducir de manera innovadora la recuperación de referencias en línea, un método de preprocesamiento llamado AttributeTree y un proceso de repulido, SurveyX mejora significativamente la eficacia de la composición de encuestas. Los resultados de la evaluación experimental muestran que SurveyX supera a los sistemas existentes de generación automatizada de encuestas en calidad de contenido (una mejora de 0.259) y calidad de citas (una mejora de 1.76), acercándose al rendimiento de expertos humanos en múltiples dimensiones de evaluación. Ejemplos de encuestas generadas por SurveyX están disponibles en www.surveyx.cn.
Comprender las moléculas es clave para entender los organismos e impulsar avances en el descubrimiento de fármacos, lo que requiere conocimiento interdisciplinario en química y biología. Aunque los grandes modelos de lenguaje molecular han logrado un éxito notable en la interpretación de estructuras moleculares, sus conjuntos de datos de instrucción se limitan al conocimiento específico de conjuntos de datos orientados a tareas y no cubren completamente las características fundamentales de las moléculas, lo que dificulta sus capacidades como asistentes moleculares de propósito general. Para abordar este problema, proponemos Mol-LLaMA, un gran modelo de lenguaje molecular que capta el conocimiento general centrado en moléculas mediante ajuste de instrucciones multimodales. Con este fin, diseñamos tipos de datos clave que abarcan las características fundamentales de las moléculas, incorporando conocimiento esencial de las estructuras moleculares. Además, para mejorar la comprensión de las características moleculares, introducimos un módulo que integra información complementaria de diferentes codificadores moleculares, aprovechando las ventajas distintivas de las distintas representaciones moleculares. Nuestros resultados experimentales demuestran que Mol-LLaMA es capaz de comprender las características generales de las moléculas y generar respuestas relevantes a las consultas de los usuarios con explicaciones detalladas, lo que sugiere su potencial como asistente de propósito general para el análisis molecular.
Presentamos PhotoDoodle, un novedoso marco de edición de imágenes diseñado para facilitar el dibujo sobre fotografías, permitiendo a los artistas superponer elementos decorativos en las imágenes. El dibujo sobre fotos es un desafío porque los elementos insertados deben integrarse de manera fluida con el fondo, lo que requiere una mezcla realista, alineación de perspectiva y coherencia contextual. Además, el fondo debe preservarse sin distorsión, y el estilo único del artista debe capturarse eficientemente a partir de datos de entrenamiento limitados. Estos requisitos no son abordados por métodos anteriores que se centran principalmente en la transferencia de estilo global o la restauración regional. El método propuesto, PhotoDoodle, emplea una estrategia de entrenamiento en dos etapas. Inicialmente, entrenamos un modelo de edición de imágenes de propósito general, OmniEditor, utilizando datos a gran escala. Posteriormente, ajustamos este modelo con EditLoRA utilizando un pequeño conjunto de datos curado por el artista, compuesto por pares de imágenes antes y después, para capturar estilos y técnicas de edición distintivos. Para mejorar la consistencia en los resultados generados, introducimos un mecanismo de reutilización de codificación posicional. Además, publicamos un conjunto de datos de PhotoDoodle que incluye seis estilos de alta calidad. Experimentos exhaustivos demuestran el rendimiento avanzado y la robustez de nuestro método en la edición personalizada de imágenes, abriendo nuevas posibilidades para la creación artística.
Los modelos del mundo que predicen cambios ambientales a partir de acciones son fundamentales para los modelos de conducción autónoma con una fuerte generalización. El modelo predominante del mundo de conducción se basa principalmente en modelos de predicción de video. Aunque estos modelos pueden producir secuencias de video de alta fidelidad con generadores avanzados basados en difusión, están limitados por su duración predictiva y capacidades generales de generalización. En este artículo, exploramos resolver este problema combinando la pérdida de generación con el aprendizaje de contexto a nivel de características al estilo MAE. En particular, instanciamos este objetivo con tres diseños clave: (1) Una estructura más escalable de Transformador de Difusión (DiT) entrenada con una tarea adicional de construcción de máscaras. (2) Diseñamos tokens de máscara relacionados con la difusión para manejar las relaciones difusas entre la reconstrucción de máscaras y el proceso de difusión generativa. (3) Extendemos la tarea de construcción de máscaras al dominio espacio-temporal utilizando máscaras por filas para la autoatención desplazada en lugar de la autoatención enmascarada en MAE. Luego, adoptamos un módulo de vista cruzada por filas para alinearnos con este diseño de máscara. Basándonos en las mejoras anteriores, proponemos MaskGWM: un Modelo del Mundo de Conducción Generalizable que incorpora la Reconstrucción de Máscaras de Video. Nuestro modelo contiene dos variantes: MaskGWM-long, enfocado en la predicción a largo plazo, y MaskGWM-mview, dedicado a la generación multivista. Experimentos exhaustivos en puntos de referencia estándar validan la efectividad del método propuesto, que incluye la validación normal del conjunto de datos Nuscene, el despliegue a largo plazo del conjunto de datos OpenDV-2K y la validación de cero disparos del conjunto de datos Waymo. Las métricas cuantitativas en estos conjuntos de datos muestran que nuestro método mejora notablemente el estado del arte en modelos del mundo de conducción.
Este artículo identifica que la mala interpretación del contexto puede ser un problema significativo durante el proceso de razonamiento de los modelos de lenguaje grandes (LLMs), desde modelos más pequeños como Llama3.2-3B-Instruct hasta los más avanzados como DeepSeek-R1. Por ejemplo, en la frase "10 dólares por kilo", los LLMs podrían no reconocer que "por" significa "para cada", lo que lleva a errores de cálculo. Introducimos un enfoque novedoso de posentrenamiento llamado **Stick to the Facts (SIFT)** para abordar este problema. SIFT aprovecha el aumento de capacidad computacional en tiempo de inferencia para fundamentar el razonamiento de los LLMs en contextos. En el núcleo de SIFT se encuentra el *Sticker*, que es generado por el propio modelo para enfatizar explícitamente la información clave dentro del contexto. Dado el Sticker seleccionado, SIFT genera dos predicciones: una a partir de la consulta original y otra a partir de la consulta aumentada con el Sticker. Si difieren, el Sticker se refina secuencialmente mediante optimización *forward* (para alinear mejor los hechos extraídos con la consulta) y generación *inverse* (para ajustarse a las tendencias inherentes del modelo) con el fin de obtener resultados de razonamiento más fieles. Los estudios realizados en diversos modelos (desde 3B hasta 100B+) y benchmarks (por ejemplo, GSM8K, MATH-500) revelan mejoras consistentes en el rendimiento. Notablemente, SIFT mejora la precisión pass@1 de DeepSeek-R1 en AIME2024 del 78.33% al **85.67%**, estableciendo un nuevo estado del arte en la comunidad de código abierto. El código está disponible en https://github.com/zhijie-group/SIFT.
La capacidad de vincular visualmente indicios coincidentes es crucial en la vida cotidiana, como identificar a la misma persona en múltiples fotos basándose en sus indicios, incluso sin saber quién es. A pesar del amplio conocimiento que poseen los modelos de visión y lenguaje (VLMs), sigue siendo en gran medida desconocido si son capaces de realizar esta tarea fundamental. Para abordar esto, presentamos VLM^2-Bench, un punto de referencia diseñado para evaluar si los VLMs pueden Vincular Visualmente Indicios Coincidentes, con 9 subtareas y más de 3,000 casos de prueba. Una evaluación exhaustiva en ocho VLMs de código abierto y GPT-4o, junto con un análisis adicional de varios métodos de indicación en el lado del lenguaje y la visión, conduce a un total de ocho hallazgos clave. Identificamos desafíos críticos en la capacidad de los modelos para vincular indicios visuales, destacando una brecha significativa de rendimiento donde incluso GPT-4o se queda un 34.80% por detrás de los humanos. Basándonos en estas ideas, abogamos por (i) mejorar las capacidades visuales centrales para aumentar la adaptabilidad y reducir la dependencia del conocimiento previo, (ii) establecer principios más claros para integrar el razonamiento basado en el lenguaje en tareas centradas en la visión para evitar sesgos innecesarios, y (iii) cambiar los paradigmas de entrenamiento de visión-texto hacia fomentar la capacidad de los modelos para estructurar e inferir relaciones entre indicios visuales de manera independiente.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento notable en tareas de razonamiento complejo, pero su eficiencia se ve limitada por los costos significativos de memoria y computación asociados con la generación de tokens extensos. En este artículo, proponemos LightThinker, un método novedoso que permite a los LLMs comprimir dinámicamente pensamientos intermedios durante el razonamiento. Inspirado en los procesos cognitivos humanos, LightThinker comprime pasos de pensamiento verbosos en representaciones compactas y descarta las cadenas de razonamiento originales, reduciendo así significativamente el número de tokens almacenados en la ventana de contexto. Esto se logra entrenando al modelo sobre cuándo y cómo realizar la compresión mediante la construcción de datos, mapeando estados ocultos a tokens de resumen condensados y creando máscaras de atención especializadas. Además, introducimos la métrica de Dependencia (Dep) para cuantificar el grado de compresión midiendo la dependencia de tokens históricos durante la generación. Experimentos exhaustivos en cuatro conjuntos de datos y dos modelos muestran que LightThinker reduce el uso máximo de memoria y el tiempo de inferencia, manteniendo una precisión competitiva. Nuestro trabajo proporciona una nueva dirección para mejorar la eficiencia de los LLMs en tareas de razonamiento complejo sin sacrificar el rendimiento. El código se publicará en https://github.com/zjunlp/LightThinker.
Escalar la longitud efectiva del contexto es esencial para avanzar hacia la inteligencia general artificial (AGI) en los modelos de lenguaje grandes (LLMs). Sin embargo, el aumento cuadrático en la complejidad computacional inherente a los mecanismos de atención tradicionales representa una sobrecarga prohibitiva. Los enfoques existentes imponen estructuras fuertemente sesgadas, como la atención de sumidero o ventana, que son específicas para tareas, o modifican radicalmente el mecanismo de atención en aproximaciones lineales, cuyo rendimiento en tareas de razonamiento complejo sigue siendo insuficientemente explorado. En este trabajo, proponemos una solución que se adhiere al principio de "menos estructura", permitiendo que el modelo determine autónomamente dónde atender, en lugar de introducir sesgos predefinidos. Introducimos Mixture of Block Attention (MoBA), un enfoque innovador que aplica los principios de Mixture of Experts (MoE) al mecanismo de atención. Esta arquitectura novedosa demuestra un rendimiento superior en tareas de contexto largo, ofreciendo una ventaja clave: la capacidad de transicionar sin problemas entre atención completa y dispersa, mejorando la eficiencia sin comprometer el rendimiento. MoBA ya se ha implementado para gestionar las solicitudes de contexto largo de Kimi y muestra avances significativos en el cálculo eficiente de la atención para LLMs. Nuestro código está disponible en https://github.com/MoonshotAI/MoBA.
A medida que el uso de agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) continúa creciendo, sus vulnerabilidades de seguridad se han vuelto cada vez más evidentes. Los extensos puntos de referencia evalúan diversos aspectos de la seguridad de los LLM al definir la seguridad basándose en gran medida en estándares generales, pasando por alto los estándares específicos del usuario. Sin embargo, los estándares de seguridad para los LLM pueden variar según perfiles específicos del usuario en lugar de ser universalmente consistentes para todos los usuarios. Esto plantea una pregunta de investigación crítica: ¿Actúan los agentes de LLM de manera segura cuando se consideran estándares de seguridad específicos del usuario? A pesar de su importancia para el uso seguro de los LLM, actualmente no existen conjuntos de datos de referencia para evaluar la seguridad específica del usuario de los LLM. Para abordar esta brecha, presentamos U-SAFEBENCH, el primer punto de referencia diseñado para evaluar el aspecto de seguridad específico del usuario de los LLM. Nuestra evaluación de 18 LLM ampliamente utilizados revela que los LLM actuales no actúan de manera segura cuando se consideran estándares de seguridad específicos del usuario, lo que marca un nuevo descubrimiento en este campo. Para abordar esta vulnerabilidad, proponemos una solución simple basada en la cadena de pensamiento, demostrando su eficacia para mejorar la seguridad específica del usuario. Nuestro punto de referencia y código están disponibles en https://github.com/yeonjun-in/U-SafeBench.
La capacidad de seguir instrucciones en múltiples turnos constituye una competencia fundamental de los modelos de lenguaje de gran escala (LLMs) en aplicaciones del mundo real. Los puntos de referencia de evaluación existentes se centran principalmente en la satisfacción de restricciones detalladas y la evaluación de capacidades específicas de dominio, pero pasan por alto la crucial dependencia estructural entre los turnos de diálogo que distingue las interacciones de múltiples turnos de las de un solo turno. Esta dependencia estructural no solo refleja la intención del usuario, sino que también establece una segunda dimensión para la evaluación del seguimiento de instrucciones más allá de la satisfacción de restricciones. Para abordar esta brecha, proponemos StructFlowBench, un punto de referencia para el seguimiento de instrucciones en múltiples turnos con modelado de flujo estructural. Este punto de referencia define de manera innovadora un marco de flujo estructural que comprende seis relaciones fundamentales entre turnos, lo que no solo introduce nuevas restricciones estructurales para la evaluación de modelos, sino que también sirve como parámetros de generación para crear flujos de diálogo personalizados adaptados a escenarios específicos. Adoptando metodologías establecidas de evaluación automática basadas en LLMs, realizamos evaluaciones sistemáticas de 13 LLMs líderes, tanto de código abierto como cerrado. Los resultados experimentales revelan deficiencias significativas en la comprensión de las estructuras de diálogo de múltiples turnos por parte de los modelos actuales. El código está disponible en https://github.com/MLGroupJLU/StructFlowBench.
La síntesis de materiales es fundamental para innovaciones como el almacenamiento de energía, la catálisis, la electrónica y los dispositivos biomédicos. Sin embargo, el proceso depende en gran medida de métodos empíricos de ensayo y error guiados por la intuición experta. Nuestro trabajo tiene como objetivo apoyar a la comunidad de la ciencia de materiales proporcionando un recurso práctico y basado en datos. Hemos recopilado un conjunto de datos exhaustivo de 17,000 recetas de síntesis verificadas por expertos, extraídas de literatura de acceso abierto, que constituye la base de nuestro nuevo punto de referencia, AlchemyBench. AlchemyBench ofrece un marco integral que respalda la investigación en modelos de lenguaje aplicados a la predicción de síntesis. Abarca tareas clave, como la predicción de materias primas y equipos, la generación de procedimientos de síntesis y la predicción de resultados de caracterización. Proponemos un marco de "LLM-como-Juez" que aprovecha los modelos de lenguaje para la evaluación automatizada, demostrando una fuerte concordancia estadística con las evaluaciones expertas. En conjunto, nuestras contribuciones ofrecen una base de apoyo para explorar las capacidades de los modelos de lenguaje en la predicción y guía de la síntesis de materiales, allanando el camino hacia un diseño experimental más eficiente y una innovación acelerada en la ciencia de materiales.
Este artículo presenta el Korean National Educational Test Benchmark (KoNET), un nuevo punto de referencia diseñado para evaluar sistemas de IA generativa multimodal utilizando exámenes educativos nacionales coreanos. KoNET comprende cuatro exámenes: el Korean Elementary General Educational Development Test (KoEGED), el Middle (KoMGED), el High (KoHGED) y el College Scholastic Ability Test (KoCSAT). Estos exámenes son reconocidos por sus estándares rigurosos y preguntas diversas, lo que facilita un análisis exhaustivo del rendimiento de la IA en diferentes niveles educativos. Al centrarse en el coreano, KoNET ofrece información sobre el desempeño de los modelos en idiomas menos explorados. Evaluamos una variedad de modelos -de código abierto, de acceso abierto y APIs cerradas- examinando dificultades, diversidad de temas y tasas de error humano. El código y el constructor del conjunto de datos estarán completamente disponibles como código abierto en https://github.com/naver-ai/KoNET.
Los modelos de lenguaje a gran escala han demostrado un progreso notable en el razonamiento matemático, aprovechando el razonamiento en cadena (chain-of-thought) y la escalabilidad del cómputo en tiempo de prueba. Sin embargo, persisten muchas preguntas abiertas sobre la interacción entre el uso de tokens de razonamiento y las mejoras en precisión. En particular, al comparar modelos de diferentes generaciones, no está claro si el mejor rendimiento se debe a cadenas de razonamiento más largas o a un razonamiento más eficiente. Analizamos sistemáticamente la longitud de las cadenas de razonamiento en las variantes o1-mini y o3-mini utilizando el benchmark Omni-MATH, encontrando que o3-mini (m) logra una precisión superior sin requerir cadenas de razonamiento más largas que o1-mini. Además, mostramos que la precisión generalmente disminuye a medida que las cadenas de razonamiento se alargan en todos los modelos y configuraciones de cómputo, incluso al controlar la dificultad de las preguntas. Esta caída en la precisión es significativamente menor en modelos más competentes, lo que sugiere que las nuevas generaciones de modelos de razonamiento utilizan el cómputo en tiempo de prueba de manera más efectiva. Finalmente, destacamos que, aunque o3-mini (h) logra una mejora marginal en precisión sobre o3-mini (m), lo hace asignando sustancialmente más tokens de razonamiento en todos los problemas, incluso en aquellos que o3-mini (m) ya puede resolver. Estos hallazgos proporcionan nuevas perspectivas sobre la relación entre la capacidad del modelo y la longitud del razonamiento, con implicaciones para la eficiencia, la escalabilidad y las metodologías de evaluación.
La generación de la estructura principal de proteínas desempeña un papel central en el diseño de novo de proteínas y es significativa para muchas aplicaciones biológicas y médicas. Aunque los modelos generativos basados en difusión y flujo ofrecen soluciones potenciales para esta tarea desafiante, a menudo generan proteínas con una deseabilidad limitada y presentan ineficiencias computacionales. En este estudio, proponemos un novedoso método de ajuste de flujo de cuaterniones rectificado (ReQFlow) para la generación rápida y de alta calidad de la estructura principal de proteínas. En particular, nuestro método genera una traslación local y una rotación 3D a partir de ruido aleatorio para cada residuo en una cadena proteica, representando cada rotación 3D como un cuaternión unitario y construyendo su flujo mediante interpolación lineal esférica (SLERP) en formato exponencial. Entrenamos el modelo mediante ajuste de flujo de cuaterniones (QFlow) con estabilidad numérica garantizada y rectificamos el modelo QFlow para acelerar su inferencia y mejorar la deseabilidad de las estructuras principales de proteínas generadas, dando lugar al modelo ReQFlow propuesto. Los experimentos muestran que ReQFlow alcanza un rendimiento de vanguardia en la generación de estructuras principales de proteínas, requiriendo muchos menos pasos de muestreo y un tiempo de inferencia significativamente menor (por ejemplo, siendo 37 veces más rápido que RFDiffusion y 62 veces más rápido que Genie2 al generar una estructura principal de longitud 300), demostrando su eficacia y eficiencia. El código está disponible en https://github.com/AngxiaoYue/ReQFlow.
Los avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y su creciente uso en la respuesta a preguntas médicas exigen una evaluación rigurosa de su fiabilidad. Un desafío crítico radica en la alucinación, donde los modelos generan respuestas plausibles pero factualmente incorrectas. En el ámbito médico, esto representa un riesgo grave para la seguridad del paciente y la toma de decisiones clínicas. Para abordar este problema, presentamos MedHallu, el primer punto de referencia específicamente diseñado para la detección de alucinaciones médicas. MedHallu consta de 10,000 pares de preguntas-respuestas de alta calidad derivados de PubMedQA, con respuestas alucinadas generadas sistemáticamente mediante un proceso controlado. Nuestros experimentos muestran que los LLMs más avanzados, incluyendo GPT-4o, Llama-3.1 y el modelo ajustado médicamente UltraMedical, tienen dificultades con esta tarea binaria de detección de alucinaciones, donde el mejor modelo alcanza un puntaje F1 tan bajo como 0.625 para detectar alucinaciones de la categoría "difícil". Mediante el agrupamiento bidireccional de implicación, demostramos que las alucinaciones más difíciles de detectar están semánticamente más cerca de la verdad fundamental. A través de experimentos, también mostramos que la incorporación de conocimiento específico del dominio y la introducción de una categoría "no estoy seguro" como una de las opciones de respuesta mejora la precisión y los puntajes F1 hasta en un 38% en comparación con las líneas base.
Los enfoques sin ajuste que adaptan modelos de difusión de video preentrenados a gran escala para la generación de texto a video con preservación de identidad (IPT2V, por sus siglas en inglés) han ganado popularidad recientemente debido a su eficacia y escalabilidad. Sin embargo, persisten desafíos significativos para lograr dinámicas faciales satisfactorias mientras se mantiene la identidad inalterada. En este trabajo, presentamos un novedoso marco IPT2V sin ajuste al mejorar el conocimiento facial del modelo de video preentrenado basado en transformadores de difusión (DiT), denominado FantasyID. Esencialmente, se incorpora un previo de geometría facial 3D para garantizar estructuras faciales plausibles durante la síntesis de video. Para evitar que el modelo aprenda atajos de copiar y pegar que simplemente repliquen la cara de referencia a lo largo de los fotogramas, se diseña una estrategia de aumento facial multivista para capturar diversas características de apariencia facial en 2D, aumentando así la dinámica en las expresiones faciales y las poses de la cabeza. Además, después de combinar las características 2D y 3D como guía, en lugar de emplear de manera ingenua la atención cruzada para inyectar señales de guía en las capas de DiT, se utiliza un mecanismo adaptativo consciente de las capas y aprendible para inyectar selectivamente las características fusionadas en cada capa individual de DiT, facilitando un modelado equilibrado de la preservación de la identidad y las dinámicas de movimiento. Los resultados experimentales validan la superioridad de nuestro modelo sobre los métodos IPT2V sin ajuste actuales.
En este artículo, abordamos el desafío de garantizar la adherencia estricta a esquemas en la generación de modelos de lenguaje de gran escala (LLM) aprovechando las capacidades de razonamiento de estos modelos. Basándonos en el marco de aprendizaje por refuerzo DeepSeek R1, nuestro enfoque entrena habilidades de razonamiento estructurado en un modelo de 1.500 millones de parámetros mediante una novedosa canalización que combina la construcción de un conjunto de datos sintéticos de razonamiento con funciones de recompensa personalizadas bajo la Optimización de Política Relativa de Grupo (GRPO). Específicamente, primero realizamos aprendizaje por refuerzo R1 en un conjunto de datos de 20.000 muestras que van de lo no estructurado a lo estructurado, siguiendo los métodos originales de DeepSeek R1, para establecer habilidades básicas de razonamiento. Posteriormente, llevamos a cabo un ajuste fino supervisado en un conjunto de datos separado de 10.000 muestras de razonamiento, centrándonos en refinar la adherencia al esquema para tareas posteriores. A pesar del alcance relativamente modesto del entrenamiento, que requirió aproximadamente 20 horas en un clúster de 8xH100 GPU para el entrenamiento GRPO y 3 horas en 1xA100 para el ajuste fino supervisado (SFT), nuestro modelo demuestra un rendimiento robusto en la aplicación de consistencia de esquemas. Comparamos nuestro enfoque ThinkJSON con el DeepSeek R1 original (671B), versiones destiladas de DeepSeek R1 (Qwen-1.5B y Qwen-7B) y Gemini 2.0 Flash (70B), destacando su eficacia en aplicaciones del mundo real. Nuestros resultados subrayan la utilidad práctica de un marco eficiente en recursos para la generación de texto restringida por esquemas.
El muestreo en modelos de difusión implica un proceso iterativo lento que dificulta su implementación práctica, especialmente en aplicaciones interactivas. Para acelerar la velocidad de generación, enfoques recientes destilan un modelo de difusión de múltiples pasos en un generador estudiantil de un solo paso mediante la destilación variacional de puntuaciones, que iguala la distribución de muestras generadas por el estudiante con la distribución del profesor. Sin embargo, estos enfoques utilizan la divergencia inversa de Kullback-Leibler (KL), conocida por ser propensa a la búsqueda de modas. En este artículo, generalizamos el enfoque de igualación de distribuciones utilizando un novedoso marco de minimización de f-divergencia, denominado f-distill, que abarca diferentes divergencias con distintos equilibrios en términos de cobertura de modas y varianza en el entrenamiento. Derivamos el gradiente de la f-divergencia entre las distribuciones del profesor y del estudiante y mostramos que se expresa como el producto de las diferencias de sus puntuaciones y una función de ponderación determinada por su razón de densidad. Esta función de ponderación enfatiza naturalmente las muestras con mayor densidad en la distribución del profesor cuando se utiliza una divergencia menos propensa a la búsqueda de modas. Observamos que el popular enfoque de destilación variacional de puntuaciones que utiliza la divergencia inversa de KL es un caso especial dentro de nuestro marco. Empíricamente, demostramos que f-divergencias alternativas, como la divergencia directa de KL y la divergencia de Jensen-Shannon, superan a los mejores métodos actuales de destilación variacional de puntuaciones en tareas de generación de imágenes. En particular, al utilizar la divergencia de Jensen-Shannon, f-distill logra el mejor rendimiento actual en generación de un solo paso en ImageNet64 y en generación de texto a imagen sin entrenamiento previo en MS-COCO. Página del proyecto: https://research.nvidia.com/labs/genair/f-distill.
Con el creciente uso de la Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) en el procesamiento de documentos, el reconocimiento robusto de texto se ha vuelto cada vez más crítico para la extracción de conocimiento. Mientras que el OCR (Reconocimiento Óptico de Caracteres) para el inglés y otros idiomas se beneficia de grandes conjuntos de datos y puntos de referencia bien establecidos, el OCR en árabe enfrenta desafíos únicos debido a su escritura cursiva, flujo de texto de derecha a izquierda y características tipográficas y caligráficas complejas. Presentamos KITAB-Bench, un punto de referencia integral para OCR en árabe que aborda las lagunas en los sistemas de evaluación actuales. Nuestro punto de referencia incluye 8,809 muestras en 9 dominios principales y 36 subdominios, abarcando diversos tipos de documentos, como texto manuscrito, tablas estructuradas y cobertura especializada de 21 tipos de gráficos para inteligencia empresarial. Nuestros hallazgos muestran que los modelos modernos de visión y lenguaje (como GPT-4, Gemini y Qwen) superan a los enfoques tradicionales de OCR (como EasyOCR, PaddleOCR y Surya) en un promedio del 60% en la Tasa de Error de Caracteres (CER). Además, destacamos limitaciones significativas en los modelos actuales de OCR en árabe, particularmente en la conversión de PDF a Markdown, donde el mejor modelo, Gemini-2.0-Flash, alcanza solo un 65% de precisión. Esto subraya los desafíos en el reconocimiento preciso de texto en árabe, incluyendo problemas con fuentes complejas, errores en el reconocimiento de numerales, elongación de palabras y detección de estructuras de tablas. Este trabajo establece un marco de evaluación riguroso que puede impulsar mejoras en los métodos de análisis de documentos en árabe y reducir la brecha de rendimiento con las tecnologías de OCR en inglés.
Los puntos de referencia existentes no evalúan a los Modelos Multimodales de Gran Escala (LMMs) en su inteligencia interactiva con usuarios humanos, lo cual es crucial para el desarrollo de asistentes de IA de propósito general. Diseñamos InterFeedback, un marco interactivo que puede aplicarse a cualquier LMM y conjunto de datos para evaluar esta capacidad de manera autónoma. Sobre esta base, presentamos InterFeedback-Bench, que evalúa la inteligencia interactiva utilizando dos conjuntos de datos representativos, MMMU-Pro y MathVerse, para probar 10 LMMs de código abierto diferentes. Además, introducimos InterFeedback-Human, un nuevo conjunto de datos de 120 casos diseñado para probar manualmente el rendimiento interactivo en modelos líderes como OpenAI-o1 y Claude-3.5-Sonnet. Nuestros resultados de evaluación muestran que incluso los LMMs más avanzados (como OpenAI-o1) pueden corregir sus resultados mediante retroalimentación humana en menos del 50%. Nuestros hallazgos señalan la necesidad de métodos que mejoren la capacidad de los LMMs para interpretar y beneficiarse de la retroalimentación.
Con el crecimiento exponencial de la investigación facilitado por la tecnología moderna y la mejora en la accesibilidad, los descubrimientos científicos se han vuelto cada vez más fragmentados dentro y entre campos. Esto dificulta la evaluación de la relevancia, novedad, hallazgos incrementales e ideas equivalentes entre trabajos relacionados, especialmente aquellos provenientes de diferentes comunidades de investigación. Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado recientemente una fuerte capacidad de razonamiento cuantitativo y cualitativo, y los debates multiagente basados en LLMs han mostrado potencial para manejar tareas de razonamiento complejo al explorar diversas perspectivas y caminos de razonamiento. Inspirados por esto, presentamos Tree-of-Debate (ToD), un marco que convierte artículos científicos en personajes LLM que debaten sus respectivas novedades. Para enfatizar un razonamiento crítico y estructurado en lugar de centrarse únicamente en los resultados, ToD construye dinámicamente un árbol de debate, permitiendo un análisis detallado de argumentos independientes sobre la novedad dentro de artículos académicos. A través de experimentos en literatura científica de diversos dominios, evaluados por investigadores expertos, demostramos que ToD genera argumentos informativos, contrasta efectivamente los artículos y apoya a los investigadores en su revisión de la literatura.
Predecir cuándo iniciar el habla en entornos del mundo real sigue siendo un desafío fundamental para los agentes conversacionales. Presentamos EgoSpeak, un marco novedoso para la predicción en tiempo real de la iniciación del habla en videos en streaming egocéntricos. Al modelar la conversación desde la perspectiva en primera persona del hablante, EgoSpeak está diseñado para interacciones humanas en las que un agente conversacional debe observar continuamente su entorno y decidir dinámicamente cuándo hablar. Nuestro enfoque cierra la brecha entre configuraciones experimentales simplificadas y conversaciones naturales complejas al integrar cuatro capacidades clave: (1) perspectiva en primera persona, (2) procesamiento RGB, (3) procesamiento en línea y (4) procesamiento de videos sin recortar. También presentamos YT-Conversation, una colección diversa de videos conversacionales en entornos naturales extraídos de YouTube, como recurso para el preentrenamiento a gran escala. Los experimentos en EasyCom y Ego4D demuestran que EgoSpeak supera a las líneas base aleatorias y basadas en silencio en tiempo real. Nuestros resultados también destacan la importancia de la entrada multimodal y la longitud del contexto para decidir eficazmente cuándo hablar.
Las principales empresas de IA están cada vez más enfocadas en construir agentes de IA generalistas: sistemas que puedan planificar, actuar y perseguir objetivos de manera autónoma en casi todas las tareas que los humanos pueden realizar. A pesar de lo útiles que estos sistemas podrían ser, la agencia de IA sin control plantea riesgos significativos para la seguridad pública y la protección, que van desde el uso indebido por parte de actores maliciosos hasta una pérdida potencialmente irreversible del control humano. Discutimos cómo estos riesgos surgen de los métodos actuales de entrenamiento de IA. De hecho, diversos escenarios y experimentos han demostrado la posibilidad de que los agentes de IA se involucren en engaños o persigan objetivos no especificados por los operadores humanos y que entran en conflicto con los intereses humanos, como la autopreservación. Siguiendo el principio de precaución, vemos una fuerte necesidad de alternativas más seguras, pero aún útiles, a la trayectoria actual impulsada por la agencia. En consecuencia, proponemos como un componente fundamental para avances futuros el desarrollo de un sistema de IA no agéntico que sea confiable y seguro por diseño, al que llamamos Científico IA. Este sistema está diseñado para explicar el mundo a partir de observaciones, en lugar de tomar acciones en él para imitar o complacer a los humanos. Consta de un modelo del mundo que genera teorías para explicar los datos y una máquina de inferencia de preguntas y respuestas. Ambos componentes operan con una noción explícita de incertidumbre para mitigar los riesgos de predicciones demasiado confiadas. A la luz de estas consideraciones, un Científico IA podría usarse para ayudar a los investigadores humanos a acelerar el progreso científico, incluso en la seguridad de la IA. En particular, nuestro sistema puede emplearse como una barrera de protección contra agentes de IA que podrían crearse a pesar de los riesgos involucrados. En última instancia, enfocarse en la IA no agéntica podría permitir los beneficios de la innovación en IA mientras se evitan los riesgos asociados con la trayectoria actual. Esperamos que estos argumentos motiven a investigadores, desarrolladores y responsables políticos a favorecer este camino más seguro.
Los embeddings de estilo son útiles para el análisis estilístico y la transferencia de estilo; sin embargo, solo se han puesto a disposición embeddings de estilo en inglés. Presentamos Multilingual StyleDistance (mStyleDistance), un modelo de embeddings de estilo multilingüe entrenado utilizando datos sintéticos y aprendizaje contrastivo. Entrenamos el modelo con datos de nueve idiomas y creamos un benchmark multilingüe STEL-or-Content (Wegmann et al., 2022) que sirve para evaluar la calidad de los embeddings. También empleamos nuestros embeddings en una tarea de verificación de autoría que involucra diferentes idiomas. Nuestros resultados muestran que los embeddings de mStyleDistance superan a los modelos existentes en estos benchmarks de estilo multilingüe y generalizan bien a características e idiomas no vistos. Ponemos nuestro modelo a disposición del público en https://huggingface.co/StyleDistance/mstyledistance.
Demostramos que el Modelo de Lenguaje de Gran Escala basado en Representaciones de Decodificador de Ley de Potencia (PLDR-LLM) es un modelo fundamental cuyas salidas deductivas son tensores invariantes hasta una pequeña perturbación. PLDR-LLM aprende una condición de singularidad para las salidas deductivas que permite que el tensor de energía-curvatura \(G_{LM}\), una vez inferido, reemplace la red neuronal profunda de atención de grafos de ley de potencia (PLGA) que genera las salidas deductivas durante la inferencia. Mostramos que una caché para \(G_{LM}\) (G-cache) y la KV-cache pueden implementarse de manera directa para mejorar el tiempo de inferencia. La naturaleza invariante y generalizable de las salidas deductivas se mantiene con una fidelidad muy alta, donde las salidas deductivas tienen los mismos valores de RMSE y determinante hasta 15 decimales después del almacenamiento en caché, y las puntuaciones de referencia zero-shot permanecen inalteradas. Los estudios de ablación muestran que las salidas deductivas aprendidas tienen características de pérdida y precisión distintas de los modelos preentrenados con tensores transferidos, inicializados aleatoriamente o tensores identidad como operador tensorial constante, y un LLM con atención de producto escalar escalado (SDPA) es un caso especial de PLDR-LLM donde \(G_{LM}\) está predefinido como identidad. La característica de invarianza observada introduce una asimetría novedosa entre las fases de entrenamiento e inferencia con almacenamiento en caché. Esbozamos las características comunes observadas de las salidas deductivas para la condición de singularidad aprendida. Proporcionamos una implementación de un marco de entrenamiento e inferencia para PLDR-LLM con KV-cache y G-cache.
Estimar las trayectorias humanas y de la cámara con una escala precisa en el sistema de coordenadas mundial a partir de un video monocular es un problema altamente deseable, pero desafiante y mal planteado. En este estudio, nuestro objetivo es recuperar modelos humanos paramétricos expresivos (es decir, SMPL-X) y las poses correspondientes de la cámara de manera conjunta, aprovechando la sinergia entre tres actores críticos: el mundo, el humano y la cámara. Nuestro enfoque se basa en dos observaciones clave. En primer lugar, los métodos de estimación de SMPL-X en el marco de la cámara recuperan fácilmente la profundidad absoluta del humano. En segundo lugar, los movimientos humanos proporcionan inherentemente pistas espaciales absolutas. Al integrar estas ideas, presentamos un marco novedoso, denominado WHAC, para facilitar la estimación de la pose y la forma humana expresiva (EHPS) anclada en el mundo junto con la estimación de la pose de la cámara, sin depender de técnicas de optimización tradicionales. Además, presentamos un nuevo conjunto de datos sintético, WHAC-A-Mole, que incluye humanos y cámaras anotados con precisión, y presenta diversos movimientos humanos interactivos, así como trayectorias realistas de la cámara. Experimentos exhaustivos en puntos de referencia estándar y recién establecidos destacan la superioridad y eficacia de nuestro marco. Haremos público el código y el conjunto de datos.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en el diagnóstico de enfermedades. Sin embargo, su eficacia en la identificación de enfermedades más raras, que son inherentemente más difíciles de diagnosticar, sigue siendo una cuestión abierta. El rendimiento en enfermedades raras es crítico dado el uso creciente de los LLMs en entornos de atención médica. Esto es especialmente cierto si un médico de atención primaria necesita realizar un pronóstico menos común basado únicamente en una conversación con el paciente para poder tomar el siguiente paso adecuado. Con este fin, varios sistemas de apoyo a la toma de decisiones clínicas están diseñados para ayudar a los proveedores en la identificación de enfermedades raras. Sin embargo, su utilidad es limitada debido a su falta de conocimiento sobre trastornos comunes y su dificultad de uso. En este artículo, proponemos RareScale para combinar el conocimiento de los LLMs con sistemas expertos. Utilizamos conjuntamente un sistema experto y un LLM para simular conversaciones sobre enfermedades raras. Estos datos se utilizan para entrenar un modelo predictor de candidatos para enfermedades raras. Los candidatos generados por este modelo más pequeño se utilizan como entradas adicionales para un LLM de caja negra con el fin de realizar el diagnóstico diferencial final. De esta manera, RareScale permite un equilibrio entre diagnósticos raros y comunes. Presentamos resultados en más de 575 enfermedades raras, comenzando con Actinomicosis Abdominal y terminando con la Enfermedad de Wilson. Nuestro enfoque mejora significativamente el rendimiento base de los LLMs de caja negra en más de un 17% en precisión Top-5. También encontramos que nuestro rendimiento en la generación de candidatos es alto (por ejemplo, 88.8% en conversaciones generadas por gpt-4o).
La comprensión multimodal de objetos 3D ha ganado una atención significativa, aunque los enfoques actuales suelen asumir la disponibilidad completa de datos y una alineación rígida entre todas las modalidades. Presentamos CrossOver, un marco novedoso para la comprensión de escenas 3D multimodal mediante una alineación flexible a nivel de escena. A diferencia de los métodos tradicionales que requieren datos de modalidades alineadas para cada instancia de objeto, CrossOver aprende un espacio de incrustación unificado y agnóstico a las modalidades para escenas alineando modalidades —imágenes RGB, nubes de puntos, modelos CAD, planos de planta y descripciones textuales— con restricciones relajadas y sin semántica explícita de objetos. Al aprovechar codificadores específicos por dimensión, una canalización de entrenamiento multietapa y comportamientos multimodales emergentes, CrossOver permite una recuperación robusta de escenas y localización de objetos, incluso con modalidades faltantes. Las evaluaciones en los conjuntos de datos ScanNet y 3RScan muestran su rendimiento superior en diversas métricas, destacando su adaptabilidad para aplicaciones del mundo real en la comprensión de escenas 3D.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han logrado avances significativos en el procesamiento del lenguaje natural, aunque su potencial para la toma de decisiones políticas de alto impacto sigue siendo en gran medida inexplorado. Este artículo aborda esta brecha al centrarse en la aplicación de los LLMs al proceso de toma de decisiones de las Naciones Unidas (ONU), donde las consecuencias son particularmente críticas y las decisiones políticas pueden tener repercusiones de largo alcance. Presentamos un nuevo conjunto de datos que incluye registros públicos del Consejo de Seguridad de la ONU (UNSC) desde 1994 hasta 2024, como proyectos de resolución, registros de votación y discursos diplomáticos. Utilizando este conjunto de datos, proponemos el Benchmark de las Naciones Unidas (UNBench), el primer marco de evaluación integral diseñado para evaluar los LLMs en cuatro tareas interconectadas de ciencias políticas: juicio de copatrocinio, simulación de votación representativa, predicción de adopción de proyectos y generación de declaraciones representativas. Estas tareas abarcan las tres etapas del proceso de toma de decisiones de la ONU—redacción, votación y discusión—y tienen como objetivo evaluar la capacidad de los LLMs para comprender y simular dinámicas políticas. Nuestro análisis experimental demuestra el potencial y los desafíos de aplicar los LLMs en este ámbito, ofreciendo perspectivas sobre sus fortalezas y limitaciones en el campo de las ciencias políticas. Este trabajo contribuye a la creciente intersección entre la inteligencia artificial y las ciencias políticas, abriendo nuevas vías para la investigación y aplicaciones prácticas en la gobernanza global. El Repositorio UNBench puede consultarse en: https://github.com/yueqingliang1/UNBench.
Consideramos el problema de predecir la expresión génica a partir de secuencias de ADN. Un desafío clave de esta tarea es identificar los elementos reguladores que controlan la expresión génica. Aquí, presentamos Seq2Exp, una red de Secuencia a Expresión diseñada explícitamente para descubrir y extraer elementos reguladores que impulsan la expresión génica objetivo, mejorando la precisión de la predicción de la expresión génica. Nuestro enfoque captura la relación causal entre las señales epigenómicas, las secuencias de ADN y sus elementos reguladores asociados. Específicamente, proponemos descomponer las señales epigenómicas y la secuencia de ADN condicionadas a los elementos reguladores activos causales, y aplicamos un cuello de botella de información con la distribución Beta para combinar sus efectos mientras filtramos los componentes no causales. Nuestros experimentos demuestran que Seq2Exp supera a los métodos de referencia existentes en tareas de predicción de expresión génica y descubre regiones influyentes en comparación con métodos estadísticos comúnmente utilizados para la detección de picos, como MACS3. El código fuente se ha publicado como parte de la biblioteca AIRS (https://github.com/divelab/AIRS/).
Las especificaciones del usuario o los marcos legales a menudo requieren que se elimine información de los modelos preentrenados, incluidos los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Esto implica borrar u "olvidar" un conjunto de puntos de datos de un modelo ya entrenado, lo que generalmente degrada su rendimiento en otros puntos de datos. Por lo tanto, es necesario encontrar un equilibrio entre eliminar la información y mantener intactas las demás capacidades del modelo, ya que un desequilibrio en esta compensación puede resultar en una eliminación deficiente o en un modelo inutilizable. Con este fin, proponemos UPCORE (Selección de Conjunto de Datos Centrales que Preserva la Utilidad), un marco de selección de datos independiente del método para mitigar el daño colateral durante el proceso de "olvido". Al observar que el daño al modelo está correlacionado con la varianza de las representaciones del modelo en el conjunto de datos a olvidar, podamos selectivamente eliminar los valores atípicos del conjunto, minimizando así la degradación del modelo después del olvido. Evaluamos UPCORE en tres métodos estándar de olvido, logrando consistentemente un equilibrio superior entre los objetivos contrapuestos de eficacia en la eliminación y preservación del modelo. Para evaluar mejor esta compensación, introducimos una nueva métrica que mide el área bajo la curva (AUC) en métricas estándar. Encontramos que UPCORE mejora tanto las métricas estándar como el AUC, beneficiándose de la transferencia positiva entre el conjunto de datos centrales y los puntos podados, mientras reduce la transferencia negativa del conjunto de datos a olvidar hacia puntos fuera de él.
El aprendizaje profundo ha logrado un éxito significativo en el campo de la detección de cambios (CD, por sus siglas en inglés) en imágenes de teledetección, aunque persisten dos grandes desafíos: la escasez de conjuntos de datos abiertos y completos con resolución submétrica, y la dificultad de obtener resultados de detección consistentes y satisfactorios en imágenes con áreas de cambio variables. Para abordar estos problemas, presentamos el conjunto de datos JL1-CD, que contiene 5,000 pares de imágenes de 512 x 512 píxeles con una resolución de 0.5 a 0.75 metros. Además, proponemos un marco de destilación de conocimiento multi-maestro (MTKD, por sus siglas en inglés) para la detección de cambios. Los resultados experimentales en los conjuntos de datos JL1-CD y SYSU-CD demuestran que el marco MTKD mejora significativamente el rendimiento de los modelos de CD con diversas arquitecturas de red y tamaños de parámetros, alcanzando nuevos resultados de vanguardia. El código está disponible en https://github.com/circleLZY/MTKD-CD.
Presentamos un marco de referencia de código abierto y una metodología de evaluación para analizar el manejo de límites emocionales en Modelos de Lenguaje a Gran Escala (LLMs). Utilizando un conjunto de datos de 1156 indicaciones en seis idiomas, evaluamos tres LLMs líderes (GPT-4o, Claude-3.5 Sonnet y Mistral-large) en su capacidad para mantener límites emocionales apropiados mediante un análisis de respuestas basado en patrones. Nuestro marco cuantifica las respuestas en siete patrones clave: rechazo directo, disculpa, explicación, desvío, reconocimiento, establecimiento de límites y conciencia emocional. Los resultados muestran variaciones significativas en los enfoques de manejo de límites, con Claude-3.5 obteniendo la puntuación más alta (8.69/10) y produciendo respuestas más extensas y matizadas (86.51 palabras en promedio). Identificamos una brecha considerable en el rendimiento entre las interacciones en inglés (puntuación promedio de 25.62) y en otros idiomas (< 0.22), con tasas de rechazo notablemente más altas en inglés (43.20% frente a < 1% en otros idiomas). El análisis de patrones reveló estrategias específicas de cada modelo, como la preferencia de Mistral por el desvío (4.2%) y puntuaciones de empatía consistentemente bajas en todos los modelos (< 0.06). Las limitaciones incluyen la posible simplificación excesiva del análisis basado en patrones, la falta de comprensión contextual en la evaluación de respuestas y la clasificación binaria de respuestas emocionales complejas. Trabajos futuros deberían explorar métodos de puntuación más matizados, ampliar la cobertura de idiomas e investigar variaciones culturales en las expectativas de límites emocionales. Nuestro marco de referencia y metodología proporcionan una base para la evaluación sistemática de la inteligencia emocional y las capacidades de establecimiento de límites en LLMs.