Artículos de investigación en IA seleccionados diariamente con traducciones
Introducimos la Drivelología, un fenómeno lingüístico único caracterizado como "disparates con profundidad", expresiones que son sintácticamente coherentes pero pragmáticamente paradójicas, emocionalmente cargadas o retóricamente subversivas. Aunque estas expresiones pueden parecer disparates superficiales, codifican un significado implícito que requiere inferencia contextual, razonamiento moral o interpretación emocional. Observamos que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), a pesar de sobresalir en muchas tareas de procesamiento del lenguaje natural (NLP), fallan consistentemente en captar la semántica estratificada del texto Drivelológico. Para investigar esto, construimos un pequeño pero diverso conjunto de datos de referencia con más de 1,200 ejemplos meticulosamente seleccionados, incluyendo instancias en inglés, mandarín, español, francés, japonés y coreano. La anotación fue especialmente desafiante: cada uno de los ejemplos requirió una revisión experta cuidadosa para verificar que reflejara verdaderamente las características Drivelológicas. El proceso involucró múltiples rondas de discusión y adjudicación para abordar desacuerdos, destacando la naturaleza sutil y subjetiva de la Drivelología. Evaluamos una variedad de LLMs en tareas de clasificación, generación y razonamiento. Nuestros resultados revelan limitaciones claras de los LLMs: los modelos a menudo confunden la Drivelología con disparates superficiales, producen justificaciones incoherentes o pasan por alto la función retórica implícita por completo. Estos hallazgos resaltan una brecha representacional más profunda en la comprensión pragmática de los LLMs y desafían la suposición de que la fluidez estadística implica comprensión cognitiva. Publicamos nuestro conjunto de datos y código para facilitar investigaciones futuras en la modelización de la profundidad lingüística más allá de la coherencia superficial.
Aprovechar los conocimientos visuales previos de modelos generativos de texto a imagen (T2I) preentrenados ha demostrado ser exitoso en predicción densa. Sin embargo, la predicción densa es inherentemente una tarea de imagen a imagen, lo que sugiere que los modelos de edición de imágenes, en lugar de los modelos generativos T2I, podrían ser una base más adecuada para el ajuste fino. Motivados por esto, realizamos un análisis sistemático del comportamiento de ajuste fino tanto de editores como de generadores para la estimación de geometría densa. Nuestros hallazgos muestran que los modelos de edición poseen conocimientos estructurales inherentes, lo que les permite converger de manera más estable al "refinar" sus características innatas y, en última instancia, alcanzar un rendimiento superior al de sus contrapartes generativas. Basándonos en estos hallazgos, presentamos FE2E, un marco que adapta de manera pionera un modelo de edición avanzado basado en la arquitectura Diffusion Transformer (DiT) para la predicción de geometría densa. Específicamente, para adaptar el editor a esta tarea determinista, reformulamos la función de pérdida original de coincidencia de flujo del editor en el objetivo de entrenamiento de "velocidad consistente". Además, utilizamos cuantificación logarítmica para resolver el conflicto de precisión entre el formato nativo BFloat16 del editor y la alta demanda de precisión de nuestras tareas. Adicionalmente, aprovechamos la atención global de DiT para una estimación conjunta sin costo adicional de profundidad y normales en un solo paso hacia adelante, permitiendo que sus señales de supervisión se refuercen mutuamente. Sin aumentar el volumen de datos de entrenamiento, FE2E logra mejoras impresionantes en el rendimiento de estimación de profundidad y normales monoculares en modo zero-shot en múltiples conjuntos de datos. Notablemente, alcanza ganancias de rendimiento superiores al 35% en el conjunto de datos ETH3D y supera a la serie DepthAnything, que está entrenada con 100 veces más datos. La página del proyecto puede accederse {aquí}(https://amap-ml.github.io/FE2E/).
Existen dos fuentes principales de datos de entrenamiento para el ajuste posterior de modelos de lenguaje modernos: datos en línea (desarrollos generados por el modelo) y datos fuera de línea (demostraciones humanas o de otros modelos). Estos dos tipos de datos son típicamente utilizados por enfoques como el Aprendizaje por Refuerzo (RL) y el Ajuste Supervisado (SFT), respectivamente. En este artículo, demostramos que estos enfoques no son contradictorios, sino instancias de un único proceso de optimización. Derivamos un Estimador Unificado de Gradiente de Política y presentamos los cálculos de un amplio espectro de enfoques de ajuste posterior como el gradiente de un objetivo común bajo diferentes suposiciones de distribución de datos y varios equilibrios entre sesgo y varianza. El estimador de gradiente se construye con cuatro partes intercambiables: máscara de estabilización, denominador de política de referencia, estimación de ventaja y gradiente de verosimilitud. Motivados por nuestros hallazgos teóricos, proponemos el Ajuste Posterior Híbrido (HPT), un algoritmo que selecciona dinámicamente diferentes señales de entrenamiento. HPT está diseñado para lograr tanto una explotación efectiva de las demostraciones como una exploración estable sin sacrificar los patrones de razonamiento aprendidos. Proporcionamos extensos experimentos y estudios de ablación para verificar la efectividad de nuestro marco teórico unificado y de HPT. En seis puntos de referencia de razonamiento matemático y dos conjuntos fuera de distribución, HPT supera consistentemente líneas de base sólidas en modelos de diversas escalas y familias.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) logran un rendimiento sólido en diversas tareas, pero a menudo exhiben inercia cognitiva, luchando por seguir instrucciones que entran en conflicto con los patrones estandarizados aprendidos durante el ajuste fino supervisado (SFT). Para evaluar esta limitación, proponemos Inverse IFEval, un punto de referencia que mide la Capacidad Contraintuitiva de los modelos: su habilidad para anular los sesgos inducidos por el entrenamiento y cumplir con instrucciones adversarias. Inverse IFEval introduce ocho tipos de desafíos de este tipo, incluyendo Corrección de Preguntas, Errores Textuales Intencionales, Código sin Comentarios y Respuestas Contrafácticas. Utilizando un proceso con intervención humana, construimos un conjunto de datos de 1012 preguntas de alta calidad en chino e inglés, abarcando 23 dominios, evaluadas bajo un marco optimizado de LLM-como-Juez. Los experimentos con los principales LLMs existentes demuestran la necesidad de nuestro punto de referencia propuesto, Inverse IFEval. Nuestros hallazgos enfatizan que los futuros esfuerzos de alineación no solo deben perseguir la fluidez y la corrección factual, sino también considerar la adaptabilidad en contextos no convencionales. Esperamos que Inverse IFEval sirva tanto como una herramienta de diagnóstico como una base para desarrollar métodos que mitiguen la inercia cognitiva, reduzcan el sobreajuste a patrones estrechos y, en última instancia, mejoren la confiabilidad de los LLMs en el seguimiento de instrucciones en escenarios reales diversos e impredecibles.
Los agentes de investigación profunda han atraído una atención creciente por su potencial para orquestar flujos de trabajo de investigación de múltiples etapas, que abarcan la síntesis de literatura, el diseño metodológico y la verificación empírica. A pesar de estos avances, evaluar fielmente su capacidad de investigación es bastante desafiante debido a la dificultad de recopilar preguntas de investigación de vanguardia que realmente capturen la atención y la curiosidad intelectual de los investigadores. Para abordar esta brecha, presentamos DeepResearch Arena, un punto de referencia basado en seminarios académicos que capturan un discurso y una interacción experta rica, reflejando mejor los entornos de investigación del mundo real y reduciendo el riesgo de fugas de datos. Para construir automáticamente DeepResearch Arena, proponemos un sistema de Generación de Tareas Jerárquicas Multi-Agente (MAHTG, por sus siglas en inglés) que extrae inspiraciones dignas de investigación de las transcripciones de seminarios. El sistema MAHTG traduce además estas inspiraciones en tareas de investigación de alta calidad, asegurando la trazabilidad en la formulación de las tareas de investigación mientras filtra el ruido. Con el sistema MAHTG, hemos curado DeepResearch Arena con más de 10,000 tareas de investigación de alta calidad provenientes de más de 200 seminarios académicos, abarcando 12 disciplinas, como literatura, historia y ciencias. Nuestra evaluación extensiva muestra que DeepResearch Arena presenta desafíos sustanciales para los agentes más avanzados del estado del arte, observándose brechas claras de rendimiento entre diferentes modelos.
Presentamos NER Retriever, un marco de recuperación zero-shot para la Recuperación de Entidades Nombradas (NER) ad-hoc, una variante del Reconocimiento de Entidades Nombradas (NER) en la que los tipos de interés no se proporcionan de antemano, y se utiliza una descripción de tipo definida por el usuario para recuperar documentos que mencionan entidades de ese tipo. En lugar de depender de esquemas fijos o modelos ajustados, nuestro método se basa en las representaciones internas de los modelos de lenguaje de gran escala (LLMs) para incrustar tanto las menciones de entidades como las descripciones de tipo abiertas proporcionadas por el usuario en un espacio semántico compartido. Demostramos que las representaciones internas, específicamente los vectores de valor de los bloques transformadores de capas intermedias, codifican información de tipo de grano fino de manera más efectiva que las incrustaciones de capa superior comúnmente utilizadas. Para refinar estas representaciones, entrenamos una red de proyección contrastiva ligera que alinea entidades compatibles con el tipo mientras separa tipos no relacionados. Las incrustaciones de entidades resultantes son compactas, conscientes del tipo y adecuadas para la búsqueda del vecino más cercano. Evaluado en tres puntos de referencia, NER Retriever supera significativamente tanto las líneas base de recuperación léxica como las de nivel de oración densa. Nuestros hallazgos proporcionan apoyo empírico para la selección de representaciones dentro de los LLMs y demuestran una solución práctica para la recuperación escalable de entidades sin esquema. El código fuente de NER Retriever está disponible públicamente en https://github.com/ShacharOr100/ner_retriever.
Un dilema fundamental en el modelado generativo persiste: los modelos de difusión iterativa logran una fidelidad excepcional, pero a un costo computacional significativo, mientras que las alternativas eficientes de pocos pasos están limitadas por un techo de calidad difícil de superar. Este conflicto entre los pasos de generación y la calidad del resultado surge de objetivos de entrenamiento restrictivos que se centran exclusivamente en dinámicas infinitesimales (PF-ODEs) o en la predicción directa del punto final. Abordamos este desafío introduciendo una ecuación exacta de dinámica en tiempo continuo que define analíticamente las transiciones de estado en cualquier intervalo de tiempo finito. Esto conduce a un nuevo paradigma generativo, los Modelos de Transición (TiM), que se adaptan a transiciones de pasos arbitrarios, recorriendo sin problemas la trayectoria generativa desde saltos únicos hasta refinamientos detallados con más pasos. A pesar de tener solo 865M de parámetros, TiM logra un rendimiento de vanguardia, superando a modelos líderes como SD3.5 (8B parámetros) y FLUX.1 (12B parámetros) en todos los conteos de pasos evaluados. Es importante destacar que, a diferencia de los generadores de pocos pasos anteriores, TiM demuestra una mejora monótona en la calidad a medida que aumenta el presupuesto de muestreo. Además, al emplear nuestra estrategia de resolución nativa, TiM ofrece una fidelidad excepcional en resoluciones de hasta 4096x4096.
Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado que sus capacidades de razonamiento pueden mejorarse significativamente mediante el Aprendizaje por Refuerzo con Recompensa Verificable (RLVR, por sus siglas en inglés), particularmente en dominios como las matemáticas y la programación, donde la corrección basada en la verdad fundamental puede evaluarse automáticamente. Sin embargo, extender este éxito a otros dominios intensivos en razonamiento sigue siendo un desafío debido a la escasez de conjuntos de datos verificables de alta calidad y al alto costo de la supervisión humana. En este trabajo, presentamos el Proyecto Loong: un marco de código abierto para la generación y verificación escalable de datos sintéticos en una amplia gama de dominios intensivos en razonamiento. El marco consta de dos componentes clave: (1) LoongBench, un conjunto de datos semilla curado que contiene 8,729 ejemplos revisados por humanos en 12 dominios (por ejemplo, Matemáticas Avanzadas, Química, Lógica), cada uno acompañado de código ejecutable y metadatos detallados; y (2) LoongEnv, un entorno modular de generación de datos sintéticos que admite múltiples estrategias de *prompting* para producir nuevos triples de pregunta-respuesta-código. Juntos, estos componentes forman un bucle agente-entorno que permite el aprendizaje por refuerzo, donde un agente basado en un LLM es recompensado por generar soluciones de Cadena de Pensamiento (CoT, por sus siglas en inglés) que se alinean con respuestas ejecutadas mediante código. Empíricamente, evaluamos LoongBench en una amplia suite de LLMs tanto de código abierto como propietarios para evaluar la cobertura de dominios y revelar cuellos de botella en el rendimiento. Además, realizamos un análisis exhaustivo de los datos sintéticos generados por LoongEnv, examinando su corrección, dificultad y diversidad. El código y la documentación están disponibles en https://github.com/camel-ai/loong.
La comprensión de videos de larga duración, caracterizada por dependencias temporales de largo alcance y múltiples eventos, sigue siendo un desafío. Los métodos existentes a menudo dependen de razonamientos estáticos o de modelos visual-lingüísticos (VLMs) externos, los cuales enfrentan problemas como la complejidad y un rendimiento subóptimo debido a la falta de entrenamiento de extremo a extremo. En este artículo, proponemos Video-MTR, un marco de razonamiento reforzado de múltiples turnos diseñado para permitir la selección iterativa de segmentos clave del video y la comprensión de preguntas. A diferencia de la pipeline tradicional de razonamiento de video, que genera predicciones en un solo turno, Video-MTR realiza el razonamiento en múltiples turnos, seleccionando segmentos de video de manera progresiva basándose en la comprensión evolutiva de los segmentos previamente procesados y la pregunta actual. Este proceso iterativo permite un análisis más refinado y contextualmente consciente del video. Para garantizar un proceso de razonamiento intermedio, introducimos un novedoso sistema de recompensas bi-nivel con compuerta, que combina recompensas a nivel de trayectoria basadas en la corrección de las respuestas y recompensas a nivel de turno que enfatizan la relevancia entre los fotogramas y la consulta. Este sistema optimiza tanto la selección de segmentos de video como la comprensión de preguntas, eliminando la necesidad de VLMs externos y permitiendo un entrenamiento de extremo a extremo. Experimentos extensivos en benchmarks como VideoMME, MLVU y EgoSchema demuestran que Video-MTR supera a los métodos existentes tanto en precisión como en eficiencia, avanzando el estado del arte en la comprensión de videos largos.
Los modelos de generación 3D basados en flujo suelen requerir docenas de pasos de muestreo durante la inferencia. Aunque los métodos de destilación de pocos pasos, particularmente los Modelos de Consistencia (CMs), han logrado avances significativos en la aceleración de modelos de difusión 2D, siguen siendo poco explorados para tareas de generación 3D más complejas. En este estudio, proponemos un marco novedoso, MDT-dist, para la destilación de flujo 3D de pocos pasos. Nuestro enfoque se basa en un objetivo principal: destilar el modelo preentrenado para aprender el Transporte de Datos Marginales. Aprender directamente este objetivo requiere integrar los campos de velocidad, pero esta integral es intratable de implementar. Por lo tanto, proponemos dos objetivos optimizables, Coincidencia de Velocidad (VM) y Destilación de Velocidad (VD), para convertir de manera equivalente el objetivo de optimización del nivel de transporte al nivel de velocidad y al nivel de distribución, respectivamente. La Coincidencia de Velocidad (VM) aprende a emparejar de manera estable los campos de velocidad entre el estudiante y el profesor, pero inevitablemente proporciona estimaciones de gradiente sesgadas. La Destilación de Velocidad (VD) mejora aún más el proceso de optimización aprovechando los campos de velocidad aprendidos para realizar la destilación de densidad de probabilidad. Al evaluar en el marco pionero de generación 3D TRELLIS, nuestro método reduce los pasos de muestreo de cada transformador de flujo de 25 a 1 o 2, logrando una latencia de 0.68s (1 paso x 2) y 0.94s (2 pasos x 2) con una aceleración de 9.0x y 6.5x en A800, mientras se preserva una alta fidelidad visual y geométrica. Experimentos extensivos demuestran que nuestro método supera significativamente los métodos de destilación CM existentes y permite que TRELLIS logre un rendimiento superior en la generación 3D de pocos pasos.
Presentamos Durian, el primer método para generar videos de animación de retratos con transferencia de atributos faciales desde una imagen de referencia dada a un retrato objetivo de manera zero-shot. Para permitir una transferencia de atributos de alta fidelidad y espacialmente consistente entre fotogramas, introducimos redes de referencia dual que inyectan características espaciales tanto de la imagen del retrato como de la imagen de atributos en el proceso de eliminación de ruido de un modelo de difusión. Entrenamos el modelo utilizando una formulación de auto-reconstrucción, donde se muestrean dos fotogramas del mismo video de retrato: uno se trata como la referencia de atributos y el otro como el retrato objetivo, y los fotogramas restantes se reconstruyen condicionados a estas entradas y sus máscaras correspondientes. Para apoyar la transferencia de atributos con extensión espacial variable, proponemos una estrategia de expansión de máscaras utilizando generación de imágenes condicionada por puntos clave para el entrenamiento. Además, aumentamos las imágenes de atributos y retratos con transformaciones a nivel espacial y de apariencia para mejorar la robustez frente a desalineaciones posicionales entre ellas. Estas estrategias permiten que el modelo generalice efectivamente a través de diversos atributos y combinaciones de referencias en entornos naturales, a pesar de ser entrenado sin supervisión explícita de tripletas. Durian logra un rendimiento de vanguardia en animación de retratos con transferencia de atributos, y, notablemente, su diseño de referencia dual permite la composición de múltiples atributos en una sola pasada de generación sin entrenamiento adicional.
El modelado generativo asistido por computadora (CAD) está impulsando innovaciones significativas en aplicaciones industriales. Trabajos recientes han mostrado avances notables en la creación de modelos sólidos a partir de diversas entradas como nubes de puntos, mallas y descripciones textuales. Sin embargo, estos métodos divergen fundamentalmente de los flujos de trabajo industriales tradicionales que comienzan con dibujos de ingeniería en 2D. La generación automática de modelos CAD paramétricos a partir de estos dibujos vectoriales en 2D sigue siendo poco explorada, a pesar de ser un paso crítico en el diseño de ingeniería. Para abordar esta brecha, nuestra idea clave es reformular la generación de CAD como un problema de aprendizaje secuencia a secuencia, donde las primitivas vectoriales de los dibujos informan directamente la generación de operaciones CAD paramétricas, preservando la precisión geométrica y la intención de diseño durante todo el proceso de transformación. Proponemos Drawing2CAD, un marco con tres componentes técnicos clave: una representación de primitivas vectoriales compatible con redes que preserva información geométrica precisa, una arquitectura transformadora de doble decodificador que desacopla la generación de tipos de comandos y parámetros mientras mantiene una correspondencia precisa, y una función de pérdida de distribución de objetivos suaves que acomoda la flexibilidad inherente en los parámetros CAD. Para entrenar y evaluar Drawing2CAD, creamos CAD-VGDrawing, un conjunto de datos de dibujos de ingeniería emparejados con modelos CAD paramétricos, y realizamos experimentos exhaustivos para demostrar la efectividad de nuestro método. El código y el conjunto de datos están disponibles en https://github.com/lllssc/Drawing2CAD.
El éxito de los potentes modelos de lenguaje de gran escala (LLMs) de código abierto ha permitido a la comunidad crear una amplia colección de modelos ajustados posteriormente para tareas y dominios específicos. Sin embargo, navegar y comprender estos modelos sigue siendo un desafío debido a metadatos inconsistentes y repositorios no estructurados. Introducimos Delta Activations, un método para representar modelos ajustados como incrustaciones vectoriales midiendo los cambios en sus activaciones internas en relación con un modelo base. Esta representación permite una agrupación efectiva por dominio y tarea, revelando estructura en el panorama de los modelos. Delta Activations también demuestra propiedades deseables: es robusto en diferentes configuraciones de ajuste y exhibe una propiedad aditiva cuando se mezclan conjuntos de datos de ajuste. Además, mostramos que Delta Activations puede incrustar tareas mediante ajuste fino con pocos ejemplos, y exploramos su uso para la selección y fusión de modelos. Esperamos que Delta Activations pueda facilitar la práctica de reutilizar modelos disponibles públicamente. El código está disponible en https://github.com/OscarXZQ/delta_activations.
Los Modelos de Lenguaje de Gran Escala (LLMs) pueden cumplir con instrucciones dañinas, lo que plantea serias preocupaciones de seguridad a pesar de sus impresionantes capacidades. Trabajos recientes han utilizado enfoques basados en sondeos para estudiar la separabilidad de entradas maliciosas y benignas en las representaciones internas de los LLMs, y los investigadores han propuesto emplear dichos métodos de sondeo para la detección de seguridad. Reexaminamos sistemáticamente este paradigma. Motivados por el bajo rendimiento fuera de distribución, planteamos la hipótesis de que los sondeos aprenden patrones superficiales en lugar de la nocividad semántica. A través de experimentos controlados, confirmamos esta hipótesis e identificamos los patrones específicos aprendidos: patrones instructivos y palabras desencadenantes. Nuestra investigación sigue un enfoque sistemático, avanzando desde la demostración de un rendimiento comparable de métodos simples de n-gramas, hasta experimentos controlados con conjuntos de datos semánticamente limpios, y un análisis detallado de las dependencias de patrones. Estos resultados revelan una falsa sensación de seguridad en torno a los enfoques actuales basados en sondeos y destacan la necesidad de rediseñar tanto los modelos como los protocolos de evaluación, para lo cual proporcionamos discusiones adicionales con la esperanza de sugerir investigaciones responsables en esta dirección. Hemos hecho público el proyecto en https://github.com/WangCheng0116/Why-Probe-Fails.