Artículos de investigación en IA seleccionados diariamente con traducciones
El modelado de contexto largo es crucial para la próxima generación de modelos de lenguaje, sin embargo, el alto costo computacional de los mecanismos de atención estándar plantea desafíos significativos. La atención dispersa ofrece una dirección prometedora para mejorar la eficiencia sin comprometer las capacidades del modelo. Presentamos NSA, un mecanismo de Atención Dispersa Nativamente Entrenable que integra innovaciones algorítmicas con optimizaciones alineadas al hardware para lograr un modelado eficiente de contexto largo. NSA emplea una estrategia jerárquica dinámica de dispersión, combinando compresión de tokens a nivel grueso con selección de tokens a nivel fino para preservar tanto la conciencia del contexto global como la precisión local. Nuestro enfoque avanza en el diseño de atención dispersa con dos innovaciones clave: (1) Logramos aceleraciones significativas mediante un diseño algorítmico equilibrado en intensidad aritmética, con optimizaciones de implementación para hardware moderno. (2) Habilitamos el entrenamiento de extremo a extremo, reduciendo el cómputo de preentrenamiento sin sacrificar el rendimiento del modelo. Como se muestra en la Figura 1, los experimentos demuestran que el modelo preentrenado con NSA mantiene o supera a los modelos de Atención Completa en benchmarks generales, tareas de contexto largo y razonamiento basado en instrucciones. Además, NSA logra aceleraciones sustanciales sobre la Atención Completa en secuencias de longitud 64k durante la decodificación, propagación hacia adelante y propagación hacia atrás, validando su eficiencia a lo largo del ciclo de vida del modelo.
Presentamos SWE-Lancer, un conjunto de pruebas de más de 1,400 tareas de ingeniería de software independiente de Upwork, valoradas en un total de 1 millón de USD en pagos reales. SWE-Lancer abarca tanto tareas de ingeniería independiente, que van desde 50 correcciones de errores hasta implementaciones de funciones de 32,000 USD, como tareas de gestión, donde los modelos eligen entre propuestas de implementación técnica. Las tareas independientes se califican con pruebas de extremo a extremo verificadas triplemente por ingenieros de software experimentados, mientras que las decisiones de gestión se evalúan en comparación con las elecciones de los gerentes de ingeniería contratados originales. Evaluamos el rendimiento del modelo y encontramos que los modelos de vanguardia aún no pueden resolver la mayoría de las tareas. Para facilitar la investigación futura, publicamos de código abierto una imagen Docker unificada y una división de evaluación pública, SWE-Lancer Diamond (https://github.com/openai/SWELancer-Benchmark). Al mapear el rendimiento del modelo al valor monetario, esperamos que SWE-Lancer permita una mayor investigación sobre el impacto económico del desarrollo de modelos de IA.
La recuperación automática de caídas es un requisito crucial antes de que los robots humanoides puedan ser desplegados de manera confiable. El diseño manual de controladores para levantarse es difícil debido a las diversas configuraciones en las que un humanoide puede terminar después de una caída y a los terrenos desafiantes en los que se espera que operen los robots humanoides. Este artículo desarrolla un marco de aprendizaje para producir controladores que permitan a los robots humanoides levantarse desde diversas configuraciones en terrenos variados. A diferencia de aplicaciones exitosas anteriores de aprendizaje de locomoción humana, la tarea de levantarse implica patrones de contacto complejos, lo que requiere modelar con precisión la geometría de colisión y recompensas más dispersas. Abordamos estos desafíos a través de un enfoque de dos fases que sigue un plan de estudios. La primera etapa se centra en descubrir una buena trayectoria para levantarse con mínimas restricciones en suavidad o límites de velocidad/torque. La segunda etapa refina luego los movimientos descubiertos en movimientos desplegables (es decir, suaves y lentos) que son robustos ante variaciones en la configuración inicial y los terrenos. Encontramos que estas innovaciones permiten a un robot humanoide G1 del mundo real levantarse de dos situaciones principales que consideramos: a) acostado boca arriba y b) acostado boca abajo, ambos probados en superficies planas, deformables, resbaladizas y pendientes (por ejemplo, césped inclinado y campo nevado). Hasta donde sabemos, esta es la primera demostración exitosa de políticas de levantamiento aprendidas para robots humanoides de tamaño humano en el mundo real. Página del proyecto: https://humanoid-getup.github.io/
Este artículo presenta ThinkDiff, un novedoso paradigma de alineación que potencia a los modelos de difusión texto-imagen con capacidades de comprensión y razonamiento multimodal en contexto al integrar las fortalezas de los modelos visión-lenguaje (VLMs). Los métodos existentes de ajuste fino multimodal de difusión se centran principalmente en la reconstrucción a nivel de píxeles en lugar del razonamiento en contexto, y se ven limitados por la complejidad y la disponibilidad limitada de conjuntos de datos basados en razonamiento. ThinkDiff aborda estos desafíos aprovechando el entrenamiento visión-lenguaje como tarea proxy, alineando los VLMs con el decodificador de un modelo de lenguaje grande (LLM) codificador-decodificador en lugar de un decodificador de difusión. Esta tarea proxy se basa en la observación de que el decodificador LLM comparte el mismo espacio de características de entrada con los decodificadores de difusión que utilizan el codificador LLM correspondiente para la incrustación de indicaciones. Como resultado, la alineación de los VLMs con los decodificadores de difusión puede simplificarse a través de la alineación con el decodificador LLM. Sin necesidad de entrenamientos complejos y conjuntos de datos, ThinkDiff libera de manera efectiva las capacidades de comprensión, razonamiento y composición en los modelos de difusión. Los experimentos demuestran que ThinkDiff mejora significativamente la precisión del 19.2% al 46.3% en el desafiante banco de pruebas CoBSAT para generación de razonamiento multimodal en contexto, con solo 5 horas de entrenamiento en 4 GPUs A100. Además, ThinkDiff muestra un rendimiento excepcional en la composición de múltiples imágenes y textos en imágenes lógicamente coherentes. Página del proyecto: https://mizhenxing.github.io/ThinkDiff.
Los métodos actuales de desaprendizaje para modelos de lenguaje grandes suelen depender de la optimización inversa para reducir las probabilidades de los tokens objetivo. Sin embargo, este paradigma interfiere con la predicción de los tokens subsiguientes, degradando el rendimiento del modelo y la coherencia lingüística. Además, las métricas de evaluación existentes sobrevaloran el olvido contextual mientras evalúan de manera insuficiente la fluidez y relevancia de las respuestas. Para abordar estos desafíos, proponemos ReLearn, un pipeline de aumento de datos y ajuste fino para desaprendizaje efectivo, junto con un marco de evaluación integral. Este marco introduce la Tasa de Olvido de Conocimiento (KFR) y la Tasa de Retención de Conocimiento (KRR) para medir la preservación a nivel de conocimiento, y el Puntaje Lingüístico (LS) para evaluar la calidad de generación. Nuestros experimentos muestran que ReLearn logra con éxito el olvido dirigido mientras preserva una salida de alta calidad. A través de un análisis mecanicista, demostramos además cómo la optimización inversa interfiere con la generación de texto coherente, mientras que ReLearn conserva esta capacidad esencial. El código está disponible en https://github.com/zjunlp/unlearn.
A pesar de las capacidades excepcionales en tareas intensivas en conocimiento, los Modelos de Lenguaje Grandes (LLMs) enfrentan una brecha crítica en la comprensión de cómo internalizan nuevo conocimiento, especialmente cómo incorporan estructuralmente el conocimiento adquirido en sus cálculos neuronales. Abordamos este problema a través del prisma de la evolución de circuitos de conocimiento, identificando subgrafos computacionales que facilitan el almacenamiento y procesamiento de conocimiento. Nuestro análisis sistemático de la evolución de circuitos a lo largo del pre-entrenamiento continuo revela varios hallazgos clave: (1) la adquisición de nuevo conocimiento está influenciada por su relevancia con el conocimiento preexistente; (2) la evolución de circuitos de conocimiento muestra un cambio de fase distintivo de la formación a la optimización; (3) la evolución de circuitos de conocimiento sigue un patrón de profundo a superficial. Estas percepciones no solo avanzan en nuestra comprensión teórica de los mecanismos de adquisición de nuevo conocimiento en LLMs, sino que también ofrecen posibles implicaciones para mejorar estrategias de pre-entrenamiento continuo para potenciar el rendimiento del modelo. El código y los datos estarán disponibles en https://github.com/zjunlp/DynamicKnowledgeCircuits.
La generación de código, el razonamiento matemático simbólico y otras tareas requieren que las LLM produzcan salidas que sean tanto sintáctica como semánticamente correctas. La generación de LLMs restringidas es una dirección prometedora para hacer cumplir la adhesión a la gramática formal, pero trabajos previos han observado empíricamente que la aplicación estricta de restricciones formales a menudo disminuye las capacidades de razonamiento de las LLMs. En este trabajo, primero proporcionamos una explicación teórica de por qué restringir las salidas de las LLMs a gramáticas muy restrictivas que solo permiten respuestas finales sintácticamente válidas reduce las capacidades de razonamiento del modelo. En segundo lugar, demostramos que al agregar reglas adicionales cuidadosamente diseñadas a la gramática de salida, siempre es posible preservar las capacidades de razonamiento de la LLM mientras se garantiza la corrección sintáctica y semántica en sus salidas. Basándonos en estas ideas teóricas, proponemos un algoritmo de decodificación restringida aumentado con razonamiento, CRANE, que equilibra eficazmente la corrección de la generación restringida con la flexibilidad de la generación no restringida. Experimentos realizados en múltiples LLMs de código abierto y pruebas muestran que CRANE supera significativamente tanto las estrategias de decodificación restringida de vanguardia como la decodificación no restringida estándar, mostrando hasta un 10% de mejora en precisión sobre los puntos de referencia en desafiantes pruebas de razonamiento simbólico GSM-symbolic y FOLIO.
Investigamos la aparición de la comprensión de la física intuitiva en modelos de redes neuronales profundas de propósito general entrenados para predecir regiones enmascaradas en videos naturales. Al aprovechar el marco de violación de expectativas, descubrimos que los modelos de predicción de video entrenados para predecir resultados en un espacio de representación aprendido demuestran una comprensión de varias propiedades de la física intuitiva, como la permanencia de objetos y la consistencia de formas. En contraste, la predicción de video en el espacio de píxeles y los modelos de lenguaje multimodal, que razonan a través de texto, logran un rendimiento más cercano al azar. Nuestras comparaciones de estas arquitecturas revelan que aprender conjuntamente un espacio de representación abstracto mientras se predicen partes faltantes de la entrada sensorial, similar a la codificación predictiva, es suficiente para adquirir una comprensión de la física intuitiva, y que incluso los modelos entrenados en una semana de videos únicos logran un rendimiento por encima del azar. Esto desafía la idea de que el conocimiento básico, un conjunto de sistemas innatos para ayudar a comprender el mundo, debe estar cableado para desarrollar una comprensión de la física intuitiva.
La jerarquía de instrucciones, que establece un orden de prioridad desde los mensajes del sistema hasta los mensajes del usuario, el historial de conversación y las salidas de herramientas, es esencial para garantizar un comportamiento consistente y seguro en los modelos de lenguaje (LM). A pesar de su importancia, este tema recibe poca atención y existe una falta de benchmarks integrales para evaluar la capacidad de los modelos para seguir la jerarquía de instrucciones. Cerramos esta brecha al presentar IHEval, un benchmark novedoso que comprende 3,538 ejemplos en nueve tareas, cubriendo casos donde las instrucciones de diferentes prioridades se alinean o entran en conflicto. Nuestra evaluación de modelos de lenguaje populares destaca su dificultad para reconocer las prioridades de las instrucciones. Todos los modelos evaluados experimentan una fuerte disminución en su rendimiento al enfrentarse a instrucciones conflictivas, en comparación con su rendimiento original de seguimiento de instrucciones. Además, el modelo de código abierto más competitivo solo alcanza un 48% de precisión al resolver dichos conflictos. Nuestros resultados subrayan la necesidad de una optimización específica en el desarrollo futuro de los modelos de lenguaje.
Sailor2 es una familia de modelos lingüísticos multilingües de vanguardia para idiomas del sudeste asiático (SEA), disponibles en tamaños de 1B, 8B y 20B para adaptarse a diversas aplicaciones. Basado en Qwen2.5, Sailor2 se somete a un preentrenamiento continuo con 500B tokens (400B específicos para SEA y 100B de tokens de repetición) para soportar 13 idiomas del sudeste asiático, manteniendo además su competencia en chino e inglés. El modelo Sailor2-20B logra una tasa de victoria de 50-50 frente a GPT-4o en idiomas del SEA. También ofrecemos un manual completo sobre cómo desarrollar el modelo multilingüe de manera eficiente, cubriendo cinco aspectos clave: curación de datos, preentrenamiento, postentrenamiento, personalización del modelo y evaluación. Esperamos que el modelo Sailor2 (bajo licencia Apache 2.0) impulse el desarrollo lingüístico en la región del SEA, y que el manual de Sailor2 inspire a los investigadores a construir modelos de lenguaje más inclusivos para otros idiomas poco atendidos.
Los Modelos de Lenguaje de Gran Escala (LLMs) enfrentan dificultades con alucinaciones y conocimiento desactualizado debido a su dependencia de datos de entrenamiento estáticos. La Generación Aumentada por Recuperación (RAG) mitiga estos problemas al integrar información externa dinámica, mejorando la fundamentación factual y actualizada. Los avances recientes en aprendizaje multimodal han llevado al desarrollo de RAG Multimodal, incorporando múltiples modalidades como texto, imágenes, audio y video para mejorar las salidas generadas. Sin embargo, la alineación y el razonamiento entre modalidades introducen desafíos únicos en RAG Multimodal, diferenciándolo del RAG unimodal tradicional. Este estudio ofrece un análisis estructurado y exhaustivo de los sistemas RAG Multimodal, cubriendo conjuntos de datos, métricas, puntos de referencia, evaluación, metodologías e innovaciones en recuperación, fusión, aumento y generación. Revisamos detalladamente las estrategias de entrenamiento, mejoras de robustez y funciones de pérdida, mientras exploramos los diversos escenarios de RAG Multimodal. Además, discutimos desafíos abiertos y direcciones futuras de investigación para apoyar avances en este campo en evolución. Este estudio sienta las bases para desarrollar sistemas de IA más capaces y confiables que aprovechen efectivamente bases de conocimiento externo dinámico y multimodal. Los recursos están disponibles en https://github.com/llm-lab-org/Multimodal-RAG-Survey.
El notable éxito del paradigma autoregresivo ha logrado avances significativos en los Modelos de Lenguaje Multimodal a Gran Escala (MLLMs), con modelos potentes como Show-o, Transfusion y Emu3 logrando un progreso notable en la comprensión y generación unificada de imágenes. Por primera vez, descubrimos un fenómeno común: las capacidades de comprensión de los MLLMs suelen ser más fuertes que sus capacidades generativas, con una brecha significativa entre ambas. Basándonos en esta percepción, proponemos HermesFlow, un marco simple pero general diseñado para cerrar la brecha entre la comprensión y la generación en MLLMs de manera fluida. Específicamente, tomamos los datos homólogos como entrada para curar datos de preferencia homólogos tanto para la comprensión como para la generación. A través de la optimización iterativa Pair-DPO y auto-juego, HermesFlow alinea de manera efectiva la comprensión y generación multimodal utilizando datos de preferencia homólogos. Experimentos extensos demuestran la notable superioridad de nuestro enfoque sobre métodos anteriores, especialmente en la reducción de la brecha entre la comprensión y generación multimodal. Estos hallazgos resaltan el potencial de HermesFlow como un marco de alineación general para modelos de base multimodales de próxima generación. Código: https://github.com/Gen-Verse/HermesFlow
Proponemos Difusión-Afilado, un enfoque de ajuste fino que mejora el alineamiento descendente optimizando las trayectorias de muestreo. Los métodos existentes de ajuste fino basados en RL se centran en pasos de entrenamiento individuales y descuidan el alineamiento a nivel de trayectoria, mientras que los métodos recientes de optimización de trayectorias de muestreo incurren en costos significativos de NFE de inferencia. Difusión-Afilado supera esto utilizando un marco de integral de trayectoria para seleccionar trayectorias óptimas durante el entrenamiento, aprovechando la retroalimentación de recompensa y amortizando los costos de inferencia. Nuestro método demuestra una eficiencia de entrenamiento superior con una convergencia más rápida, y la mejor eficiencia de inferencia sin requerir NFEs adicionales. Experimentos extensos muestran que Difusión-Afilado supera a los métodos de ajuste fino basados en RL (por ejemplo, Difusión-DPO) y a los métodos de optimización de trayectorias de muestreo (por ejemplo, Escalado de Inferencia) en diversas métricas que incluyen alineación de texto, capacidades de composición y preferencias humanas, ofreciendo una solución escalable y eficiente para futuros ajustes finos de modelos de difusión. Código: https://github.com/Gen-Verse/Diffusion-Sharpening
Los mensajes del sistema desempeñan un papel crucial en las interacciones con los modelos de lenguaje grandes (LLMs), a menudo sirviendo como indicaciones para iniciar conversaciones. A través de los mensajes del sistema, los usuarios pueden asignar roles específicos, realizar tareas previstas, incorporar información de fondo, especificar varios formatos de salida y estilos de comunicación. A pesar de tanta versatilidad, los datos disponibles públicamente a menudo carecen de mensajes del sistema y están sujetos a estrictas restricciones de licencia en el campo de la industria. El etiquetado manual de datos disponibles públicamente con mensajes del sistema que se alineen con las instrucciones del usuario requiere de recursos significativos. Ante tales desafíos, nuestro trabajo presenta SysGen, un conjunto de herramientas para generar mensajes del sistema con respuestas de asistente mejor alineadas a partir del conjunto de datos de ajuste fino supervisado sin mensajes del sistema. El entrenamiento con los datos de SysGen ha demostrado mejoras sustanciales en la alineación de las respuestas del modelo con los mensajes del sistema y las instrucciones del usuario, como se ha demostrado en varios modelos de código abierto en el banco de pruebas Multifacet, manteniendo un impacto mínimo en otros bancos de pruebas no vistos, como Open LLM Leaderboard 2. Nuestro análisis cualitativo destaca la importancia de contar con diversos mensajes del sistema para garantizar una mejor adaptabilidad en diferentes contextos.
Los avances recientes en sistemas basados en LLM para múltiples agentes (LLM-MA) han demostrado promesa, sin embargo, aún existen desafíos significativos en la gestión de la comunicación y el perfeccionamiento cuando los agentes colaboran en tareas complejas. En este artículo, proponemos Talk Estructuralmente, Actúa Jerárquicamente (TalkHier), un marco novedoso que introduce un protocolo de comunicación estructurado para intercambios ricos en contexto y un sistema jerárquico de perfeccionamiento para abordar problemas como salidas incorrectas, falsedades y sesgos. TalkHier supera varios tipos de SoTA, incluido el modelo de escalado de inferencia (OpenAI-o1), modelos de múltiples agentes de código abierto (por ejemplo, AgentVerse) y estrategias de votación mayoritaria en modelos LLM actuales y baselines de un solo agente (por ejemplo, ReAct, GPT4o), en diversas tareas, incluyendo respuestas a preguntas de dominio abierto, cuestionamiento selectivo específico del dominio y generación de texto publicitario práctico. Estos resultados resaltan su potencial para establecer un nuevo estándar para sistemas LLM-MA, allanando el camino para marcos de múltiples agentes más efectivos, adaptables y colaborativos. El código está disponible en https://github.com/sony/talkhier.
Los recientes avances en los modelos multimodales de gran escala (LMMs) han impulsado aplicaciones prometedoras de agentes capaces de completar de manera autónoma tareas complejas en la web. Si bien los agentes LMM de código abierto han logrado avances significativos en los puntos de referencia de evaluación fuera de línea, su rendimiento aún está considerablemente por debajo de las capacidades humanas en entornos en línea más realistas. Un cuello de botella clave es la falta de conjuntos de datos diversos y a gran escala a nivel de trayectorias en diversos dominios, los cuales son costosos de recopilar. En este artículo, abordamos este desafío desarrollando una receta escalable para sintetizar el conjunto de datos a nivel de trayectorias más grande y diverso hasta la fecha, que contiene más de 94K trayectorias web multimodales exitosas, abarcando 49K URLs únicas, 720K capturas de pantalla y 33M elementos web. En particular, aprovechamos una exploración y refinamiento extensivo de la web para obtener intenciones de tareas diversas. El costo promedio es de 28 centavos por trayectoria exitosa, lo que lo hace asequible para una amplia gama de usuarios en la comunidad. Utilizando este conjunto de datos, entrenamos Explorer, un agente web multimodal, y demostramos un rendimiento sólido en puntos de referencia tanto fuera de línea como en línea para agentes web, como Mind2Web-Live, Multimodal-Mind2Web y MiniWob++. Además, nuestros experimentos destacan la escalabilidad de datos como un factor clave para mejorar las capacidades de los agentes web. Esperamos que este estudio haga que la investigación de vanguardia basada en LMMs a mayor escala sea más accesible.
A pesar de los resultados casi perfectos en evaluaciones artificiales, la efectividad de la edición de modelos en aplicaciones del mundo real sigue sin explorarse. Para cerrar esta brecha, proponemos estudiar la edición de modelos en tareas de respuesta a preguntas (QA) mediante el establecimiento de una práctica de evaluación rigurosa para medir la efectividad de los métodos de edición en la corrección de errores de los LLMs. Esto incluye QAEdit, un nuevo punto de referencia derivado de conjuntos de datos populares de QA, y un marco de evaluación estandarizado. Nuestros experimentos de edición única indican que los métodos de edición actuales tienen un rendimiento sustancialmente peor que lo reportado anteriormente (38.5% vs. ~96%). A través del análisis de módulos y experimentos controlados, demostramos que esta disminución en el rendimiento se debe a problemas en las prácticas de evaluación de investigaciones previas sobre edición. Un problema clave es el uso inapropiado de "teacher forcing" en las pruebas, que evita la propagación de errores al alimentar tokens de verdad fundamental (inaccesibles en escenarios del mundo real) como entrada. Además, simulamos la implementación en el mundo real mediante la edición secuencial, revelando que los enfoques actuales fallan drásticamente con solo 1000 ediciones. Nuestro análisis proporciona una reevaluación fundamental tanto de la aplicabilidad en el mundo real de los métodos de edición de modelos existentes como de sus prácticas de evaluación, y establece un marco de evaluación riguroso con ideas clave para avanzar en la investigación de edición de modelos confiable y práctica.
Los modelos de lenguaje de gran tamaño (LLMs) han demostrado capacidades notables en tareas relacionadas con el código, como comprensión y generación de código. Sin embargo, una pregunta igualmente importante pero poco explorada es si los LLMs pueden servir como ejecutores de código sustitutos de propósito general, para predecir la salida y el comportamiento de un programa sin necesidad de ejecutarlo realmente. Para investigar sistemáticamente esta capacidad, presentamos SURGE, un banco de pruebas exhaustivo que abarca ocho aspectos clave: tareas de programación en múltiples lenguajes, problemas de programación de nivel de competición, análisis de código a nivel de repositorio, cómputo científico de alto costo, algoritmos intensivos en complejidad temporal, análisis de código con errores, programas dependientes de compiladores específicos o entornos de ejecución, y verificación formal de pruebas matemáticas. Evaluamos varios LLMs de código abierto y propietarios en SURGE y realizamos un estudio de escalado para analizar el impacto del tamaño del modelo y la escala de los datos de entrenamiento en la precisión de la ejecución sustituta. Además, categorizamos los errores de predicción del modelo y exploramos áreas potenciales para mejoras. Nuestros hallazgos indican que si bien los LLMs pueden predecir resultados de ejecución de código en ciertos casos, presentan limitaciones en la ejecución sustituta de propósito general. Este estudio proporciona información empírica sobre la viabilidad de utilizar LLMs como ejecutores de código sustitutos. El código y el conjunto de datos se han publicado en https://github.com/Imbernoulli/SURGE.
Con el crecimiento explosivo de la creación de contenido en 3D, hay una creciente demanda de convertir automáticamente modelos 3D estáticos en versiones listas para la articulación que admitan animaciones realistas. Los enfoques tradicionales dependen en gran medida de la anotación manual, lo cual es tanto consumidor de tiempo como intensivo en mano de obra. Además, la falta de benchmarks a gran escala ha obstaculizado el desarrollo de soluciones basadas en el aprendizaje. En este trabajo, presentamos MagicArticulate, un marco efectivo que transforma automáticamente modelos 3D estáticos en activos listos para la articulación. Nuestras contribuciones clave son triples. Primero, presentamos Articulation-XL, un benchmark a gran escala que contiene más de 33k modelos 3D con anotaciones de articulación de alta calidad, cuidadosamente seleccionados de Objaverse-XL. Segundo, proponemos un método novedoso de generación de esqueletos que formula la tarea como un problema de modelado de secuencias, aprovechando un transformador autorregresivo para manejar naturalmente números variables de huesos o articulaciones dentro de esqueletos y sus dependencias inherentes a través de diferentes modelos 3D. Tercero, predecimos pesos de ajuste utilizando un proceso de difusión funcional que incorpora distancias geodésicas volumétricas entre vértices y articulaciones. Experimentos extensos demuestran que MagicArticulate supera significativamente a los métodos existentes en diversas categorías de objetos, logrando una articulación de alta calidad que permite animaciones realistas. Página del proyecto: https://chaoyuesong.github.io/MagicArticulate.
Si bien los avances recientes en la optimización del razonamiento han mejorado significativamente las capacidades de los modelos de lenguaje grandes (LLMs), los esfuerzos existentes para mejorar el razonamiento se han limitado a resolver problemas matemáticos y centrarse en entradas visuales gráficas, descuidando aplicaciones más amplias en la comprensión general de videos. En este documento se propone video-SALMONN-o1, el primer LLM audiovisual de código abierto mejorado con razonamiento diseñado para tareas de comprensión general de videos. Para mejorar sus habilidades de razonamiento, desarrollamos un conjunto de datos intensivo en razonamiento que presenta preguntas desafiantes audiovisuales con soluciones paso a paso. También proponemos la optimización directa de preferencias de proceso (pDPO), que aprovecha la selección de pasos contrastivos para lograr una modelización eficiente de recompensas a nivel de paso adaptada para entradas multimodales. Además, presentamos RivaBench, el primer banco de pruebas de comprensión de videos intensivo en razonamiento, que incluye más de 4,000 pares de preguntas y respuestas de alta calidad, curados por expertos, en escenarios como comedia en vivo, presentaciones académicas y detección de videos sintéticos. video-SALMONN-o1 logra mejoras de precisión del 3-8% sobre la línea base LLaVA-OneVision en diferentes bancos de pruebas de razonamiento de videos. Además, pDPO logra mejoras del 6-8% en comparación con el modelo de ajuste fino supervisado en RivaBench. El razonamiento mejorado permite a video-SALMONN-o1 capacidades de detección de videos sintéticos sin necesidad de entrenamiento previo.
Este artículo presenta Model-guidance (MG), un objetivo novedoso para entrenar modelos de difusión que aborda y elimina el uso común de Classifier-free guidance (CFG). Nuestro enfoque innovador trasciende el modelado estándar de la distribución de datos para incorporar la probabilidad posterior de las condiciones. La técnica propuesta se origina a partir de la idea de CFG y es simple pero efectiva, convirtiéndola en un módulo plug-and-play para modelos existentes. Nuestro método acelera significativamente el proceso de entrenamiento, duplica la velocidad de inferencia y logra una calidad excepcional que iguala e incluso supera a los modelos de difusión concurrentes con CFG. Experimentos exhaustivos demuestran la efectividad, eficiencia y escalabilidad en diferentes modelos y conjuntos de datos. Finalmente, establecemos un rendimiento de vanguardia en los benchmarks de ImageNet 256 con un FID de 1.34. Nuestro código está disponible en https://github.com/tzco/Diffusion-wo-CFG.
Los grandes modelos de lenguaje demuestran capacidades notables en diversos dominios, especialmente en matemáticas y razonamiento lógico. Sin embargo, las evaluaciones actuales pasan por alto el razonamiento basado en la física, una tarea compleja que requiere teoremas y restricciones físicas. Presentamos PhysReason, un banco de pruebas de 1,200 problemas que comprende problemas basados en conocimiento (25%) y problemas basados en razonamiento (75%), donde estos últimos se dividen en tres niveles de dificultad (fácil, medio, difícil). Es importante destacar que los problemas requieren un promedio de 8.1 pasos de solución, siendo 15.6 para los difíciles, lo que refleja la complejidad del razonamiento basado en la física. Proponemos el Marco de Puntuación Automática de Soluciones Físicas, que incorpora evaluaciones eficientes a nivel de respuesta y a nivel de pasos exhaustivos. Modelos de alto rendimiento como Deepseek-R1, Gemini-2.0-Flash-Thinking y o3-mini-high logran menos del 60% en la evaluación a nivel de respuesta, con un rendimiento que disminuye desde preguntas de conocimiento (75.11%) hasta problemas difíciles (31.95%). A través de la evaluación a nivel de pasos, identificamos cuatro cuellos de botella clave: Aplicación de Teoremas de Física, Comprensión de Procesos Físicos, Cálculos y Análisis de Condiciones Físicas. Estos hallazgos posicionan a PhysReason como un banco de pruebas novedoso y completo para evaluar las capacidades de razonamiento basado en la física en grandes modelos de lenguaje. Nuestro código y datos se publicarán en https:/dxzxy12138.github.io/PhysReason.
Text-to-SQL tiene como objetivo convertir preguntas en lenguaje natural en consultas SQL ejecutables. Si bien enfoques anteriores, como la selección enmascarada de esqueletos, han demostrado un rendimiento sólido al recuperar ejemplos de entrenamiento similares para guiar a los modelos de lenguaje grandes (LLMs), tienen dificultades en escenarios del mundo real donde tales ejemplos no están disponibles. Para superar esta limitación, proponemos Aprendizaje en contexto con Auto-aumentación y Selección de Ejemplos Detallados para Text-to-SQL (SAFE-SQL), un marco novedoso que mejora la generación de SQL mediante la generación y filtrado de ejemplos auto-aumentados. SAFE-SQL primero solicita a un LLM que genere múltiples ejemplos de Text-to-SQL relevantes para la entrada de prueba. Luego, SAFE-SQL filtra estos ejemplos a través de tres evaluaciones de relevancia, construyendo ejemplos de aprendizaje en contexto de alta calidad. Utilizando ejemplos auto-generados, SAFE-SQL supera los marcos anteriores de Text-to-SQL de cero disparos y pocos disparos, logrando una mayor precisión de ejecución. Es destacable que nuestro enfoque proporciona ganancias de rendimiento adicionales en escenarios extra difíciles y no vistos, donde los métodos convencionales a menudo fallan.
Presentamos Dyve, un verificador de procesos dinámico que mejora la detección de errores de razonamiento en modelos de lenguaje de gran escala mediante la integración de pensamiento rápido y lento, inspirado en la Teoría de Sistemas de Kahneman. Dyve aplica de manera adaptativa la confirmación inmediata a nivel de token del Sistema 1 para pasos sencillos y un análisis exhaustivo del Sistema 2 para los complejos. Aprovechando una novedosa técnica de supervisión de procesos filtrados por consenso paso a paso, que combina la estimación de Monte Carlo con la evaluación basada en modelos de lenguaje, Dyve selecciona señales de supervisión de alta calidad a partir de datos ruidosos. Los resultados experimentales en ProcessBench y el conjunto de datos MATH confirman que Dyve supera significativamente a los verificadores de procesos existentes y mejora el rendimiento en configuraciones de Mejor-de-N.
Los modelos generativos latentes han surgido como un enfoque líder para la síntesis de imágenes de alta calidad. Estos modelos dependen de un autoencoder para comprimir las imágenes en un espacio latente, seguido de un modelo generativo que aprende la distribución latente. Identificamos que los autoencoders existentes carecen de equivariancia frente a transformaciones que preservan la semántica, como el escalado y la rotación, lo que resulta en espacios latentes complejos que dificultan el rendimiento generativo. Para abordar esto, proponemos EQ-VAE, un enfoque de regularización simple que impone equivariancia en el espacio latente, reduciendo su complejidad sin degradar la calidad de la reconstrucción. Al ajustar autoencoders preentrenados con EQ-VAE, mejoramos el rendimiento de varios modelos generativos de vanguardia, incluyendo DiT, SiT, REPA y MaskGIT, logrando una aceleración de 7 veces en DiT-XL/2 con solo cinco épocas de ajuste fino de SD-VAE. EQ-VAE es compatible tanto con autoencoders continuos como discretos, ofreciendo así una mejora versátil para una amplia gama de modelos generativos latentes. Página del proyecto y código: https://eq-vae.github.io/.
Aprovechar los Modelos de Lenguaje de Gran Escala (LLMs por sus siglas en inglés) matemáticos para la generación de pruebas es un tema fundamental en la investigación de LLMs. Sostenemos que la capacidad de los LLMs actuales para demostrar afirmaciones depende en gran medida de si han encontrado el proceso de prueba relevante durante el entrenamiento. Esta dependencia limita su comprensión más profunda de los teoremas matemáticos y conceptos relacionados. Inspirados en el método pedagógico de "demostración por contraejemplos" comúnmente utilizado en la educación matemática humana, nuestro trabajo tiene como objetivo mejorar la capacidad de los LLMs para llevar a cabo razonamientos matemáticos y demostraciones a través de contraejemplos. Específicamente, creamos manualmente un banco de pruebas matemáticas de alta calidad a nivel universitario, CounterMATH, que requiere que los LLMs demuestren afirmaciones matemáticas proporcionando contraejemplos, evaluando así su comprensión de los conceptos matemáticos. Además, desarrollamos un marco de ingeniería de datos para obtener automáticamente datos de entrenamiento para mejorar aún más el modelo. Experimentos extensos y análisis detallados demuestran que CounterMATH es desafiante, lo que indica que los LLMs, como OpenAI o1, tienen capacidades de demostración impulsadas por contraejemplos insuficientes. Además, nuestra exploración en el entrenamiento del modelo revela que fortalecer las habilidades de razonamiento conceptual impulsadas por contraejemplos de los LLMs es crucial para mejorar sus capacidades matemáticas en general. Creemos que nuestro trabajo ofrece nuevas perspectivas a la comunidad de LLMs matemáticos.
Los LMs existentes enfrentan dificultades con la programación orientada a la prueba debido a la escasez de datos, que se manifiesta de dos formas clave: (1) una falta de corpus suficientes para lenguajes de programación orientados a la prueba como F*, y (2) la ausencia de implementaciones orientadas a la prueba a nivel de proyecto a gran escala que puedan enseñar al modelo el intrincado proceso de razonamiento al realizar programación orientada a la prueba. Presentamos el primero en aumento de datos sintéticos para la programación orientada a la prueba a nivel de proyecto tanto para generación como para reparación. Nuestro método aborda la escasez de datos mediante la síntesis de problemas básicos de programación orientada a la prueba para la competencia en ese lenguaje; incorporando datos de codificación diversos para la elicitation de capacidad de razonamiento y creando nuevos datos de pruebas y reparación dentro de repositorios existentes. Este enfoque permite a los modelos de lenguaje tanto sintetizar como reparar pruebas para código a nivel de función y de repositorio. Mostramos que nuestro modelo PoPilot, afinado con 14B parámetros, puede superar el rendimiento de los modelos que superan a GPT-4o en programación orientada a la prueba a nivel de proyecto en un margen relativo del 64%, y puede mejorar el rendimiento de GPT-4o en un 54% reparando sus salidas sobre la auto-reparación de GPT-4o.
Se ha preparado cuidadosamente un gran volumen de datos de alta calidad, tanto textos sin procesar para el preentrenamiento como anotaciones posteriores al entrenamiento, para incubar modelos de lenguaje grandes (LLMs) avanzados. En contraste, para la extracción de información (IE, por sus siglas en inglés), los datos de preentrenamiento, como secuencias etiquetadas con BIO, son difíciles de escalar. Mostramos que los modelos de IE pueden aprovechar los recursos de LLM al reformular la predicción del siguiente token en extracción para tokens ya presentes en el contexto. Específicamente, nuestro paradigma propuesto de extracción de siguientes tokens (NTE) aprende un modelo de IE versátil, Cuckoo, con 102.6 millones de datos extractivos convertidos de los datos de preentrenamiento y postentrenamiento de LLM. Bajo la configuración de pocos ejemplos, Cuckoo se adapta eficazmente a la IE tradicional y compleja que sigue instrucciones, con un rendimiento superior a los modelos de IE preentrenados existentes. Como un usuario gratuito, Cuckoo puede evolucionar naturalmente con los avances continuos en la preparación de datos de LLM, beneficiándose de las mejoras en los flujos de entrenamiento de LLM sin esfuerzo manual adicional.
La memoria es crucial para permitir que los agentes aborden tareas complejas con dependencias temporales y espaciales. Si bien muchos algoritmos de aprendizaje por refuerzo (RL, por sus siglas en inglés) incorporan memoria, el campo carece de un punto de referencia universal para evaluar las capacidades de memoria de un agente en diversos escenarios. Esta brecha es particularmente evidente en la manipulación robótica sobre mesas, donde la memoria es esencial para resolver tareas con observabilidad parcial y garantizar un rendimiento robusto, pero no existen puntos de referencia estandarizados. Para abordar esto, presentamos MIKASA (Memory-Intensive Skills Assessment Suite for Agents), un punto de referencia integral para RL con memoria, con tres contribuciones clave: (1) proponemos un marco de clasificación exhaustivo para tareas de RL intensivas en memoria, (2) recopilamos MIKASA-Base, un punto de referencia unificado que permite la evaluación sistemática de agentes mejorados con memoria en diversos escenarios, y (3) desarrollamos MIKASA-Robo, un nuevo punto de referencia con 32 tareas cuidadosamente diseñadas que evalúan las capacidades de memoria en la manipulación robótica sobre mesas. Nuestras contribuciones establecen un marco unificado para avanzar en la investigación de RL con memoria, impulsando el desarrollo de sistemas más confiables para aplicaciones del mundo real. El código está disponible en https://sites.google.com/view/memorybenchrobots/.
Los Modelos de Lenguaje de Gran Escala (LLMs) con capacidades de llamadas a API han permitido la creación de Agentes de Lenguaje (LA) efectivos, al mismo tiempo que han revolucionado el paradigma convencional de diálogo orientado a tareas (TOD). Sin embargo, los enfoques actuales enfrentan un dilema crítico: los sistemas TOD suelen entrenarse con un conjunto limitado de API objetivo, requiriendo nuevos datos para mantener su calidad al interactuar con nuevos servicios, mientras que los LA no están entrenados para mantener la intención del usuario en conversaciones de múltiples turnos. Dado que tanto la gestión robusta de múltiples turnos como la llamada avanzada a funciones son cruciales para agentes conversacionales efectivos, evaluamos estas habilidades en tres puntos de referencia populares: MultiWOZ 2.4 (TOD), BFCL V3 (LA) y API-Bank (LA), y nuestros análisis revelan que los enfoques especializados sobresalen en un dominio pero tienen un rendimiento inferior en el otro. Para cerrar esta brecha, presentamos CALM (Modelo de Lenguaje Agéntico Conversacional), un enfoque unificado que integra tanto capacidades conversacionales como agénticas. Creamos CALM-IT, un conjunto de datos multitarea cuidadosamente construido que entrelaza razonamiento ReAct de múltiples turnos con el uso complejo de API. Utilizando CALM-IT, entrenamos tres modelos: CALM 8B, CALM 70B y CALM 405B, los cuales superan a los mejores modelos específicos de dominio, incluyendo GPT-4o, en los tres puntos de referencia.
Este trabajo presenta ILIAS, un nuevo conjunto de datos de prueba para la recuperación de imágenes a nivel de instancia a gran escala. Está diseñado para evaluar la capacidad de los modelos base actuales y futuros, así como de las técnicas de recuperación, para reconocer objetos específicos. Las principales ventajas sobre los conjuntos de datos existentes incluyen su gran escala, diversidad de dominios, precisión en la verdad de campo y un rendimiento que está lejos de estar saturado. ILIAS incluye imágenes de consulta y positivas para 1,000 instancias de objetos, recolectadas manualmente para capturar condiciones desafiantes y dominios diversos. La recuperación a gran escala se realiza frente a 100 millones de imágenes distractoras de YFCC100M. Para evitar falsos negativos sin necesidad de anotación adicional, solo se incluyen objetos de consulta confirmados que surgieron después de 2014, es decir, la fecha de compilación de YFCC100M. Se realiza una evaluación extensiva con las siguientes observaciones: i) los modelos ajustados en dominios específicos, como lugares emblemáticos o productos, destacan en ese dominio pero fallan en ILIAS; ii) aprender una capa de adaptación lineal utilizando supervisión de clases multi-dominio resulta en mejoras de rendimiento, especialmente para modelos de visión y lenguaje; iii) los descriptores locales en la reordenación de la recuperación siguen siendo un componente clave, especialmente en presencia de fondos muy desordenados; iv) el rendimiento de los modelos base de visión y lenguaje en la tarea de texto a imagen es sorprendentemente cercano al caso correspondiente de imagen a imagen. Sitio web: https://vrg.fel.cvut.cz/ilias/
La omnipresencia de grandes modelos de lenguaje y la inteligencia artificial generativa en los medios en línea ha amplificado la necesidad de una verificación de hechos automatizada efectiva para ayudar a los verificadores de hechos a hacer frente al creciente volumen y sofisticación de la desinformación. La naturaleza compleja de la verificación de hechos exige que los sistemas automatizados de verificación de hechos proporcionen explicaciones que permitan a los verificadores de hechos escrutar sus resultados. Sin embargo, no está claro cómo estas explicaciones deben alinearse con los procesos de toma de decisiones y razonamiento de los verificadores de hechos para integrarse efectivamente en sus flujos de trabajo. A través de entrevistas semiestructuradas con profesionales de la verificación de hechos, cerramos esta brecha al: (i) proporcionar un relato de cómo los verificadores de hechos evalúan la evidencia, toman decisiones y explican sus procesos; (ii) examinar cómo los verificadores de hechos utilizan herramientas automatizadas en la práctica; y (iii) identificar los requisitos de explicación de los verificadores de hechos para las herramientas automatizadas de verificación de hechos. Los hallazgos muestran necesidades de explicación no satisfechas e identifican criterios importantes para explicaciones de verificación de hechos replicables que sigan el camino de razonamiento del modelo, hagan referencia a evidencia específica y destaquen la incertidumbre y las lagunas de información.
Este documento investiga las capacidades de razonamiento matemático de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) utilizando 50 problemas de palabras de nivel de escuela secundaria recién construidos. A diferencia de estudios anteriores que se centran únicamente en la corrección de respuestas, analizamos rigurosamente tanto las respuestas finales como los pasos de solución para identificar fallas de razonamiento. Evaluando ocho modelos de última generación, incluidos Mixtral, Llama, Gemini, GPT-4o y las variantes o1 de OpenAI, encontramos que si bien los modelos más nuevos (por ejemplo, o3-mini, deepseek-r1) logran una mayor precisión, todos los modelos presentan errores en el razonamiento espacial, la planificación estratégica y la aritmética, a veces produciendo respuestas correctas a través de lógica defectuosa. Los modos comunes de falla incluyen suposiciones infundadas, una dependencia excesiva en patrones numéricos y dificultades para traducir la intuición física en pasos matemáticos. El análisis manual revela que los modelos tienen dificultades con problemas que requieren deducciones de múltiples pasos o conocimientos del mundo real, a pesar de poseer un amplio conocimiento matemático. Nuestros resultados subrayan la importancia de evaluar los procesos de razonamiento, no solo las respuestas, y advierten contra la sobreestimación de la competencia de resolución de problemas de los LLMs. El estudio destaca brechas persistentes en las capacidades de generalización de los LLMs, enfatizando la necesidad de mejoras específicas en el razonamiento estructurado y el manejo de restricciones.
Este documento desafía el paradigma reciente en la predicción de propiedades atómicas que vincula el progreso al crecimiento de los tamaños de conjuntos de datos y recursos computacionales. Mostramos que el preentrenamiento en un conjunto de datos cuidadosamente seleccionado y relevante para la tarea puede igualar o incluso superar el preentrenamiento a gran escala, utilizando tan solo 1/24 del costo computacional. Introducimos el Índice de Similitud Química (CSI), una métrica novedosa inspirada en la Distancia de Inception de Fréchet de la visión por computadora, para grafos moleculares que cuantifica la alineación entre los conjuntos de datos de preentrenamiento iniciales y las tareas posteriores. Al seleccionar el conjunto de datos más relevante con una distancia CSI mínima, demostramos que los modelos preentrenados en un conjunto de datos más pequeño y enfocado superan consistentemente a aquellos preentrenados en conjuntos de datos masivos y mixtos como JMP, incluso cuando esos conjuntos de datos más grandes incluyen el conjunto de datos relevante. Contrariamente a la intuición, también encontramos que agregar más datos indiscriminadamente puede degradar el rendimiento del modelo cuando los datos adicionales no se alinean bien con la tarea en cuestión. Nuestros hallazgos resaltan que la calidad a menudo supera a la cantidad en el preentrenamiento para la predicción de propiedades atómicas.
Las funciones de influencia proporcionan información crucial sobre el entrenamiento de modelos, pero los métodos existentes adolecen de altos costos computacionales y una generalización limitada. En particular, trabajos recientes han propuesto diversas métricas y algoritmos para calcular la influencia de los datos utilizando modelos de lenguaje, los cuales no escalan bien con modelos y conjuntos de datos grandes. Esto se debe a los costosos pases hacia adelante y hacia atrás requeridos para el cálculo, los requisitos sustanciales de memoria para almacenar modelos grandes y la pobre generalización de las estimaciones de influencia a nuevos datos. En este artículo, exploramos el uso de redes neuronales pequeñas —a las que nos referimos como InfluenceNetwork— para estimar los valores de influencia, logrando una reducción de costos de hasta el 99%. Nuestra evaluación demuestra que los valores de influencia pueden estimarse con modelos que son solo el 0.0027% del tamaño de los modelos de lenguaje completos (utilizamos versiones de 7B y 8B). Aplicamos nuestro algoritmo de estimación de valores de influencia (denominado NN-CIFT: Neural Networks for effiCient Instruction Fine-Tuning) a la tarea de selección de subconjuntos para el ajuste fino de instrucciones generales. En nuestro estudio, incluimos cuatro funciones de influencia de última generación y mostramos que no hay compromiso en el rendimiento, a pesar de las grandes aceleraciones, entre NN-CIFT y las funciones de influencia originales. Proporcionamos un análisis detallado de los hiperparámetros de NN-CIFT. El código de nuestro método se puede encontrar aquí: https://github.com/agarwalishika/NN-CIFT.
A pesar de sus notables capacidades, los LLMs aprenden representaciones de palabras que muestran la característica no deseada pero poco comprendida de anisotropía. En este artículo, argumentamos que el segundo momento en Adam es una causa de incrustaciones anisotrópicas, y sugerimos un optimizador modificado llamado Adam Acoplado para mitigar el problema. Nuestros experimentos demuestran que Adam Acoplado mejora significativamente la calidad de las incrustaciones, al mismo tiempo que conduce a un mejor rendimiento aguas arriba y aguas abajo en conjuntos de datos lo suficientemente grandes.
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han avanzado significativamente en la generación de lenguaje natural, pero a menudo enfrentan desafíos en tareas que requieren cálculos precisos y análisis estructural. Este documento investiga el rendimiento de los LLMs de última generación en tareas de medición de complejidad del lenguaje, a través del cálculo de la métrica de legibilidad LIX y la Distancia Promedio de Dependencia (ADD). Utilizando ensayos de nivel de escuela secundaria y universidad en sueco, evaluamos las capacidades de los modelos para calcular puntajes LIX y realizar análisis de dependencia, comparando sus resultados con verdades fundamentales establecidas. Nuestros hallazgos revelan que si bien todos los modelos muestran cierta capacidad para estas tareas, ChatGPT-o1-mini tiene el rendimiento más consistente, logrando la mayor precisión tanto en el cálculo de LIX como en el análisis de dependencia. Además, observamos una correlación significativa y fuerte de -0.875 p 0.026 (N=6) entre la precisión de los modelos al calcular LIX y su rendimiento general en el benchmark de Comprensión del Lenguaje Multitarea Masiva (MMLU). Estos resultados sugieren que las habilidades de medición de la complejidad del lenguaje pueden servir como indicadores no precisos para evaluar las capacidades generales de los LLMs, proporcionando un método práctico para la evaluación de modelos sin la necesidad de extensos conjuntos de datos de referencia.
La detección de textos generados por Modelos de Lenguaje a Gran Escala (LLMs) podría provocar errores graves debido a decisiones incorrectas, como socavar la dignidad académica de los estudiantes. Por lo tanto, la detección de textos generados por LLMs debe garantizar la interpretabilidad de la decisión, lo que puede ayudar a los usuarios a juzgar cuán confiablemente correcta es su predicción. Cuando los humanos verifican si un texto está escrito por una persona o generado por un LLM, intuitivamente investigan con cuál de ellos comparte tramos más similares. Sin embargo, los detectores interpretables existentes no están alineados con el proceso de toma de decisiones humano y no ofrecen evidencia que los usuarios puedan entender fácilmente. Para cerrar esta brecha, presentamos ExaGPT, un enfoque de detección interpretable basado en el proceso de toma de decisiones humano para verificar el origen de un texto. ExaGPT identifica un texto comprobando si comparte tramos más similares con textos escritos por humanos o con textos generados por LLMs a partir de un almacén de datos. Este enfoque puede proporcionar ejemplos de tramos similares que contribuyen a la decisión para cada tramo del texto como evidencia. Nuestra evaluación humana demuestra que proporcionar ejemplos de tramos similares contribuye de manera más efectiva a juzgar la corrección de la decisión que los métodos interpretables existentes. Además, experimentos extensos en cuatro dominios y tres generadores muestran que ExaGPT supera significativamente a detectores potentes anteriores con hasta +40.9 puntos de precisión a una tasa de falsos positivos del 1%.