Artículos de investigación en IA seleccionados diariamente con traducciones
De manera sistemática, investigamos una pregunta ampliamente planteada: ¿Los LLMs realmente comprenden lo que dicen?, la cual se relaciona con el término más familiar de loro estocástico. Con este fin, proponemos una evaluación sumativa sobre una tarea de comprensión de conceptos físicos cuidadosamente diseñada, PhysiCo. Nuestra tarea alivia el problema de la memorización mediante el uso de entradas en formato de cuadrícula que describen abstractamente fenómenos físicos. Las cuadrículas representan diferentes niveles de comprensión, desde el fenómeno central, ejemplos de aplicación hasta analogías con otros patrones abstractos en el mundo de la cuadrícula. Un estudio exhaustivo sobre nuestra tarea demuestra: (1) los LLMs de última generación, incluidos GPT-4o, o1 y Gemini 2.0 flash thinking, quedan rezagados respecto a los humanos en ~40%; (2) el fenómeno del loro estocástico está presente en los LLMs, ya que fallan en nuestra tarea de cuadrícula pero pueden describir y reconocer los mismos conceptos bien en lenguaje natural; (3) nuestra tarea desafía a los LLMs debido a dificultades intrínsecas en lugar del formato de cuadrícula no familiar, ya que el aprendizaje en contexto y el ajuste fino en datos con el mismo formato aportaron poco a su rendimiento.
En los modernos modelos de lenguaje de gran tamaño (LLMs), el manejo de longitudes de contexto muy largas presenta desafíos significativos, ya que provoca velocidades de inferencia más lentas y mayores costos de memoria. Además, la mayoría de los LLMs pre-entrenados existentes no logran generalizar más allá de las longitudes de secuencia de entrenamiento originales. Para permitir la utilización eficiente y práctica de contextos largos, presentamos InfiniteHiP, un marco de inferencia de LLM novedoso y práctico que acelera el procesamiento al eliminar dinámicamente tokens de contexto irrelevantes a través de un algoritmo de poda jerárquica modular. Nuestro método también permite la generalización a secuencias más largas mediante la aplicación selectiva de varios métodos de ajuste de RoPE según los patrones de atención interna dentro de los LLMs. Además, trasladamos la caché de clave-valor a la memoria del host durante la inferencia, reduciendo significativamente la presión de memoria de la GPU. Como resultado, InfiniteHiP permite el procesamiento de hasta 3 millones de tokens en una sola GPU L40s de 48 GB, 3 veces más grande, sin ninguna pérdida permanente de información de contexto. Nuestro marco logra una aceleración de 18.95 veces en la decodificación de atención para un contexto de 1 millón de tokens sin necesidad de entrenamiento adicional. Implementamos nuestro método en el marco SGLang y demostramos su eficacia y practicidad a través de evaluaciones extensas.
Los codificadores de texto a gran escala en modelos de difusión texto-imagen (T2I) han demostrado un rendimiento excepcional en la generación de imágenes de alta calidad a partir de indicaciones textuales. A diferencia de los módulos de eliminación de ruido que dependen de múltiples pasos iterativos, los codificadores de texto requieren solo un pase hacia adelante para producir incrustaciones de texto. Sin embargo, a pesar de su mínima contribución al tiempo total de inferencia y a las operaciones de punto flotante (FLOPs), los codificadores de texto requieren un uso de memoria significativamente mayor, hasta ocho veces más que los módulos de eliminación de ruido. Para abordar esta ineficiencia, proponemos capas de Salto y Reutilización (Skrr), una estrategia de poda simple pero efectiva diseñada específicamente para los codificadores de texto en modelos de difusión T2I. Skrr explota la redundancia inherente en los bloques transformadores al saltar o reutilizar selectivamente ciertas capas de una manera adaptada para tareas T2I, reduciendo así el consumo de memoria sin comprometer el rendimiento. Experimentos extensos demuestran que Skrr mantiene la calidad de imagen comparable al modelo original incluso bajo niveles altos de dispersión, superando a los métodos de poda por bloques existentes. Además, Skrr logra eficiencia de memoria de vanguardia al tiempo que preserva el rendimiento en múltiples métricas de evaluación, incluidas las puntuaciones FID, CLIP, DreamSim y GenEval.
Los avances recientes en técnicas de difusión han impulsado la generación de imágenes y videos a niveles de calidad sin precedentes, acelerando significativamente la implementación y aplicación de la IA generativa. Sin embargo, la tecnología de generación de formas 3D ha quedado rezagada hasta ahora, limitada por restricciones en la escala de datos 3D, la complejidad del procesamiento de datos 3D y la insuficiente exploración de técnicas avanzadas en el dominio 3D. Los enfoques actuales para la generación de formas 3D enfrentan desafíos sustanciales en cuanto a calidad de salida, capacidad de generalización y alineación con las condiciones de entrada. Presentamos TripoSG, un nuevo paradigma de difusión de formas simplificado capaz de generar mallas 3D de alta fidelidad con correspondencia precisa a imágenes de entrada. Específicamente, proponemos: 1) Un transformador de flujo rectificado a gran escala para la generación de formas 3D, logrando fidelidad de vanguardia mediante el entrenamiento en datos extensos y de alta calidad. 2) Una estrategia de entrenamiento supervisado híbrido que combina pérdidas SDF, normales y eikonales para VAE 3D, logrando un rendimiento de reconstrucción 3D de alta calidad. 3) Un pipeline de procesamiento de datos para generar 2 millones de muestras 3D de alta calidad, resaltando las reglas cruciales para la calidad y cantidad de datos en el entrenamiento de modelos generativos 3D. A través de experimentos exhaustivos, hemos validado la efectividad de cada componente en nuestro nuevo marco de trabajo. La integración perfecta de estas partes ha permitido a TripoSG lograr un rendimiento de vanguardia en la generación de formas 3D. Las formas 3D resultantes exhiben un detalle mejorado debido a las capacidades de alta resolución y demuestran una fidelidad excepcional a las imágenes de entrada. Además, TripoSG muestra una versatilidad mejorada en la generación de modelos 3D a partir de diversos estilos y contenidos de imágenes, mostrando sólidas capacidades de generalización. Para fomentar el progreso y la innovación en el campo de la generación 3D, haremos nuestro modelo públicamente disponible.
Con el creciente número de modelos disponibles públicamente, es probable que existan modelos en línea preentrenados para la mayoría de las tareas que los usuarios requieren. Sin embargo, los métodos actuales de búsqueda de modelos son rudimentarios, básicamente una búsqueda basada en texto en la documentación, por lo tanto, los usuarios no pueden encontrar los modelos relevantes. En este artículo se presenta ProbeLog, un método para recuperar modelos de clasificación que pueden reconocer un concepto objetivo, como "Perro", sin acceso a metadatos del modelo o datos de entrenamiento. A diferencia de los métodos de sondeo anteriores, ProbeLog calcula un descriptor para cada dimensión de salida (logit) de cada modelo, observando sus respuestas en un conjunto fijo de entradas (sondas). Nuestro método admite tanto la recuperación basada en logit ("encontrar más logit como este") como la recuperación basada en texto de cero disparo ("encontrar todos los logit correspondientes a perros"). Dado que las representaciones basadas en sondeo requieren múltiples pasos hacia adelante costosos a través del modelo, desarrollamos un método, basado en filtrado colaborativo, que reduce el costo de codificación de repositorios en un 3x. Demostramos que ProbeLog logra una alta precisión de recuperación, tanto en tareas de búsqueda del mundo real como en tareas de búsqueda detalladas, y es escalable a repositorios de tamaño completo.
Presentamos SelfCite, un enfoque novedoso de autoaprendizaje que alinea LLMs para generar citas a nivel de oración de alta calidad y detalladas para las afirmaciones en sus respuestas generadas. En lugar de depender únicamente de anotaciones costosas y laboriosas, SelfCite aprovecha una señal de recompensa proporcionada por el LLM a través de la ablación de contexto: si es necesaria una cita, eliminar el texto citado del contexto debería evitar la misma respuesta; si es suficiente, mantener solo el texto citado debería preservar la misma respuesta. Esta recompensa puede guiar la estrategia de muestreo de mejor de N en tiempo de inferencia para mejorar significativamente la calidad de las citas, así como utilizarse en la optimización de preferencias para ajustar directamente los modelos para generar mejores citas. La efectividad de SelfCite se demuestra al aumentar el F1 de la cita hasta 5.3 puntos en el banco de pruebas LongBench-Cite en cinco tareas de respuesta a preguntas de formato largo.
El aprovechamiento de Modelos de Lenguaje Multimodales a Gran Escala (MLLMs, por sus siglas en inglés) para crear agentes incorporados ofrece una vía prometedora para abordar tareas del mundo real. Mientras que los agentes incorporados centrados en el lenguaje han recibido una atención considerable, los agentes incorporados basados en MLLMs siguen siendo poco explorados debido a la falta de marcos de evaluación integrales. Para cerrar esta brecha, presentamos EmbodiedBench, un extenso banco de pruebas diseñado para evaluar agentes incorporados impulsados por la visión. EmbodiedBench incluye: (1) un conjunto diverso de 1,128 tareas de prueba en cuatro entornos, que van desde tareas semánticas de alto nivel (por ejemplo, domésticas) hasta tareas de bajo nivel que implican acciones atómicas (por ejemplo, navegación y manipulación); y (2) seis subconjuntos meticulosamente seleccionados que evalúan capacidades esenciales del agente como el razonamiento del sentido común, la comprensión de instrucciones complejas, la conciencia espacial, la percepción visual y la planificación a largo plazo. A través de experimentos extensos, evaluamos 13 MLLMs líderes, tanto propietarios como de código abierto, dentro de EmbodiedBench. Nuestros hallazgos revelan que: los MLLMs destacan en tareas de alto nivel pero tienen dificultades con la manipulación de bajo nivel, siendo el mejor modelo, GPT-4o, con una puntuación promedio de solo 28.9%. EmbodiedBench proporciona una plataforma de evaluación estandarizada multifacética que no solo resalta los desafíos existentes, sino que también ofrece ideas valiosas para avanzar en agentes incorporados basados en MLLM. Nuestro código está disponible en https://embodiedbench.github.io.
Este documento investiga metodologías de selección de datos y fusión de modelos destinadas a incorporar capacidades avanzadas de razonamiento, como las de DeepSeek R1, en modelos de lenguaje específicos de un idioma (LLMs), con un enfoque particular en el LLM tailandés. Nuestro objetivo es mejorar las capacidades de razonamiento de los LLMs específicos de un idioma manteniendo sus habilidades en el idioma objetivo. DeepSeek R1 destaca en razonamiento, pero beneficia principalmente a idiomas con muchos recursos como el inglés y el chino. Sin embargo, los idiomas con pocos recursos siguen siendo desatendidos debido a la predominancia de los datos de entrenamiento y optimizaciones de modelos centrados en el inglés, lo que limita el rendimiento en estos idiomas. Esta limitación resulta en un cambio de código poco confiable y una efectividad disminuida en tareas en idiomas con pocos recursos. Mientras tanto, iniciativas locales y regionales de LLM han intentado cerrar esta brecha desarrollando LLMs específicos de un idioma que se centran en mejorar la fidelidad lingüística local. Demostramos que, con solo conjuntos de datos disponibles públicamente y un presupuesto computacional de $120, es posible mejorar las capacidades de razonamiento de los LLMs específicos de un idioma para igualar el nivel de DeepSeek R1, sin comprometer su rendimiento en tareas en el idioma objetivo.
Los agentes de lenguaje de simulación de roles (RPLAs) han surgido como aplicaciones prometedoras de modelos de lenguaje grandes (LLMs). Sin embargo, la simulación de personajes establecidos presenta una tarea desafiante para los RPLAs, debido a la falta de conjuntos de datos de personajes auténticos y métodos de evaluación matizados que utilicen dichos datos. En este documento, presentamos CoSER, una colección de un conjunto de datos de alta calidad, modelos abiertos y un protocolo de evaluación hacia RPLAs efectivos de personajes establecidos. El conjunto de datos de CoSER abarca 17,966 personajes de 771 libros reconocidos. Proporciona diálogos auténticos con complejidades del mundo real, así como diversos tipos de datos como configuraciones de conversación, experiencias de personajes y pensamientos internos. Inspirados en la metodología de actuación, introducimos la actuación de circunstancias dadas para el entrenamiento y la evaluación de LLMs de simulación de roles, donde los LLMs representan secuencialmente múltiples personajes en escenas de libros. Utilizando nuestro conjunto de datos, desarrollamos CoSER 8B y CoSER 70B, es decir, LLMs de simulación de roles abiertos avanzados construidos sobre los modelos LLaMA-3.1. Experimentos extensos demuestran el valor del conjunto de datos de CoSER para el entrenamiento, la evaluación y la recuperación de RPLA. Además, CoSER 70B exhibe un rendimiento de vanguardia superando o igualando a GPT-4o en nuestra evaluación y tres bancos de pruebas existentes, es decir, logrando un 75.80% y un 93.47% de precisión en los bancos de pruebas InCharacter y LifeChoice respectivamente.
Responder preguntas con Chain-of-Thought (CoT) ha mejorado significativamente las capacidades de razonamiento de los Modelos de Lenguaje Grandes (LLMs), sin embargo, su impacto en los Modelos Multimodales Grandes (LMMs) aún carece de una evaluación sistemática e investigación en profundidad. En este documento, presentamos MME-CoT, un banco de pruebas especializado que evalúa el rendimiento de razonamiento CoT de LMMs, abarcando seis dominios: matemáticas, ciencia, OCR, lógica, espacio-tiempo y escenas generales. Como el primer estudio integral en esta área, proponemos un conjunto de evaluación exhaustivo que incorpora tres métricas novedosas que evalúan la calidad, robustez y eficiencia del razonamiento a un nivel detallado. Aprovechando datos de alta calidad seleccionados y una estrategia de evaluación única, realizamos un análisis en profundidad de los LMMs de última generación, descubriendo varias ideas clave: 1) Los modelos con mecanismo de reflexión muestran una calidad CoT superior, con Kimi k1.5 superando a GPT-4o y demostrando los mejores resultados de calidad; 2) La solicitud de CoT a menudo degrada el rendimiento de LMM en tareas con carga perceptiva, lo que sugiere un comportamiento potencialmente perjudicial de sobreponderación; y 3) Aunque la calidad de CoT es alta, los LMMs con reflexión muestran una ineficiencia significativa tanto en la respuesta normal como en las fases de autocorrección. Esperamos que MME-CoT sirva como base para avanzar en el razonamiento multimodal en LMMs. Página del Proyecto: https://mmecot.github.io/
Las arquitecturas sin codificador han sido exploradas preliminarmente en el dominio visual 2D, sin embargo, sigue siendo una pregunta abierta si pueden ser aplicadas efectivamente a escenarios de comprensión 3D. En este artículo, presentamos la primera investigación exhaustiva sobre el potencial de las arquitecturas sin codificador para superar los desafíos de los Modelos Multimodales Grandes (LMM) 3D basados en codificadores. Estos desafíos incluyen la incapacidad de adaptarse a resoluciones variables de nubes de puntos y que las características de puntos del codificador no satisfacen las necesidades semánticas de los Modelos de Lenguaje Grandes (LLM). Identificamos aspectos clave para los LMM 3D para eliminar el codificador y permitir que el LLM asuma el papel del codificador 3D: 1) Proponemos la estrategia de Codificación Semántica incrustada en el LLM en la etapa de pre-entrenamiento, explorando los efectos de varias pérdidas auto-supervisadas de nubes de puntos. Y presentamos la Pérdida Semántica Híbrida para extraer semántica de alto nivel. 2) Introducimos la estrategia de Agregación Geométrica Jerárquica en la etapa de ajuste de instrucciones. Esto incorpora sesgo inductivo en las capas tempranas del LLM para enfocarse en los detalles locales de las nubes de puntos. Finalmente, presentamos el primer LMM 3D sin codificador, ENEL. Nuestro modelo de 7B rivaliza con el modelo actual de vanguardia, ShapeLLM-13B, logrando un 55.0%, 50.92% y 42.7% en las tareas de clasificación, descripción y VQA, respectivamente. Nuestros resultados demuestran que la arquitectura sin codificador es altamente prometedora para reemplazar las arquitecturas basadas en codificadores en el campo de la comprensión 3D. El código está disponible en https://github.com/Ivan-Tang-3D/ENEL
Con la aparición de modelos avanzados de razonamiento como OpenAI o3 y DeepSeek-R1, los grandes modelos de lenguaje (LLMs) han demostrado notables capacidades de razonamiento. Sin embargo, su habilidad para llevar a cabo un razonamiento lógico riguroso sigue siendo una pregunta abierta. Esta encuesta sintetiza los avances recientes en razonamiento lógico dentro de los LLMs, un área crítica de investigación en IA. Describe el alcance del razonamiento lógico en los LLMs, sus fundamentos teóricos y los puntos de referencia utilizados para evaluar la competencia en razonamiento. Analizamos las capacidades existentes en diferentes paradigmas de razonamiento - deductivo, inductivo, abductivo y analógico - y evaluamos estrategias para mejorar el rendimiento en el razonamiento, incluyendo ajustes centrados en los datos, aprendizaje por refuerzo, estrategias de decodificación y enfoques neuro-simbólicos. La revisión concluye con las direcciones futuras, enfatizando la necesidad de una exploración adicional para fortalecer el razonamiento lógico en los sistemas de IA.
En el campo en constante evolución del Procesamiento del Lenguaje Natural, los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) se enfrentan a desafíos de razonamiento cada vez más complejos. Métodos tradicionales como la generación de cadenas de pensamiento han mostrado promesa, pero a menudo no logran aprovechar completamente las capacidades de razonamiento de un modelo. Este artículo presenta SQuARE (Motor de Razonamiento de Preguntas y Respuestas Secuenciales), una técnica de generación de estímulos novedosa diseñada para mejorar el razonamiento a través de un paradigma de auto-interrogación. Basándose en los marcos de CoT, SQuARE estimula a los modelos a generar y resolver múltiples preguntas auxiliares antes de abordar la consulta principal, fomentando una exploración más exhaustiva de varios aspectos de un tema. Nuestras extensas evaluaciones, realizadas con los modelos Llama 3 y GPT-4o en múltiples conjuntos de datos de preguntas y respuestas, demuestran que SQuARE supera significativamente a los estímulos tradicionales de CoT y a los métodos existentes de reformulación y respuesta. Al descomponer sistemáticamente las consultas, SQuARE mejora las capacidades de los LLM en tareas de razonamiento. El código está disponible públicamente en https://github.com/IntelLabs/RAG-FiT/tree/square.
Este documento presenta Typhoon T1, un esfuerzo abierto para desarrollar un modelo tailandés de razonamiento abierto. Un modelo de razonamiento es un tipo relativamente nuevo de modelo generativo construido sobre modelos de lenguaje grandes (MLG). Un modelo de razonamiento genera una larga cadena de pensamiento antes de llegar a una respuesta final, un enfoque que se ha demostrado mejora el rendimiento en tareas complejas. Sin embargo, los detalles sobre el desarrollo de dicho modelo son limitados, especialmente para modelos de razonamiento que pueden generar trazas en un idioma con recursos limitados. Typhoon T1 presenta un esfuerzo abierto que profundiza en los detalles del desarrollo de un modelo de razonamiento de manera más rentable mediante el aprovechamiento del ajuste fino supervisado utilizando conjuntos de datos abiertos, en lugar del aprendizaje por refuerzo. Este documento comparte los detalles sobre la generación y entrenamiento de datos sintéticos, así como nuestro conjunto de datos y pesos del modelo. Además, proporcionamos ideas obtenidas del desarrollo de un modelo de razonamiento que se generaliza en diferentes dominios y es capaz de generar trazas de razonamiento en un idioma con recursos limitados, utilizando el tailandés como ejemplo. Esperamos que este esfuerzo abierto siente las bases para futuras investigaciones en este campo.
Chain-of-Thought mejora significativamente la capacidad de razonamiento de un modelo, pero también conlleva un aumento considerable en los costos de inferencia debido a cadenas largas. Con la observación de que la ruta de razonamiento puede comprimirse fácilmente en tareas sencillas pero tiene dificultades en tareas difíciles, exploramos la viabilidad de controlar elásticamente la longitud de las rutas de razonamiento con un solo modelo, reduciendo así la sobrecarga de inferencia de modelos de razonamiento de forma dinámica según la dificultad de la tarea. Presentamos una nueva estrategia de ajuste e inferencia llamada CoT-Valve, diseñada para permitir que los modelos generen cadenas de razonamiento de longitudes variables. Para lograr esto, proponemos identificar una dirección en el espacio de parámetros que, al manipularse, pueda controlar efectivamente la longitud de CoT generada. Además, demostramos que esta propiedad es valiosa para comprimir la cadena de razonamiento. Construimos conjuntos de datos con cadenas desde largas hasta cortas para las mismas preguntas y exploramos dos estrategias mejoradas para CoT-Valve: (1) un método preciso de ajuste de CoT compresible en longitud, y (2) un enfoque progresivo de compresión de longitud de cadena. Nuestros experimentos muestran que CoT-Valve permite de manera exitosa la controlabilidad y compresibilidad de la cadena, y muestra un mejor rendimiento que el control basado en indicaciones. Aplicamos este método a QwQ-32B-Preview, reduciendo las cadenas de razonamiento en GSM8K de 741 a 225 tokens con una ligera disminución de rendimiento (95.07% a 94.92%) y en AIME de 6827 a 4629 tokens, con solo una respuesta incorrecta adicional.
Los modelos de incrustación multimodal han ganado una atención significativa por su capacidad de mapear datos de diferentes modalidades, como texto e imágenes, en un espacio de representación unificado. Sin embargo, la limitada cantidad de datos multimodales etiquetados a menudo obstaculiza el rendimiento de la incrustación. Enfoques recientes han aprovechado la síntesis de datos para abordar este problema, aunque la calidad de los datos sintéticos sigue siendo un cuello de botella crítico. En este trabajo, identificamos tres criterios para datos multimodales sintéticos de alta calidad. En primer lugar, un alcance amplio asegura que los datos generados cubran diversas tareas y modalidades, lo que los hace aplicables a varios escenarios posteriores. En segundo lugar, una alineación robusta entre modalidades hace que las diferentes modalidades sean semánticamente consistentes. En tercer lugar, una alta fidelidad garantiza que los datos sintéticos mantengan detalles realistas para mejorar su confiabilidad. Guiados por estos principios, sintetizamos conjuntos de datos que: (1) abarcan una amplia gama de tareas, combinaciones de modalidades e idiomas, (2) son generados a través de un proceso de pensamiento profundo dentro de un único pase de un gran modelo de lenguaje multimodal, y (3) incorporan imágenes del mundo real con textos precisos y relevantes, asegurando la fidelidad a través de la autoevaluación y el perfeccionamiento. Aprovechando estos conjuntos de datos sintéticos y etiquetados de alta calidad, entrenamos un modelo mmE5 multimodal multilingüe. Experimentos extensos demuestran que mmE5 logra un rendimiento de vanguardia en el Benchmark MMEB y un rendimiento multilingüe superior en el benchmark XTD. Nuestros códigos, conjuntos de datos y modelos se encuentran disponibles en https://github.com/haon-chen/mmE5.
Abordamos el desafío de desarrollar un controlador de seguimiento neural generalizable para la manipulación hábil a partir de referencias humanas. Este controlador tiene como objetivo gestionar una mano de robot hábil para manipular diversos objetos con diferentes propósitos definidos por interacciones cinemáticas humano-objeto. El desarrollo de dicho controlador se complica por la intrincada dinámica de contacto de la manipulación hábil y la necesidad de adaptabilidad, generalización y robustez. Los métodos actuales de aprendizaje por refuerzo y optimización de trayectorias a menudo no cumplen con las expectativas debido a su dependencia de recompensas específicas de la tarea o modelos precisos del sistema. Introducimos un enfoque que selecciona demostraciones exitosas a gran escala de seguimiento de robots, que consisten en pares de referencias humanas y acciones de robot, para entrenar un controlador neural. Utilizando un ciclo de datos, mejoramos iterativamente el rendimiento del controlador, así como la cantidad y calidad de las demostraciones exitosas de seguimiento. Explotamos las demostraciones de seguimiento disponibles e integramos cuidadosamente el aprendizaje por refuerzo y el aprendizaje por imitación para potenciar el rendimiento del controlador en entornos dinámicos. Al mismo tiempo, para obtener demostraciones de seguimiento de alta calidad, optimizamos individualmente el seguimiento por trayectoria aprovechando el controlador de seguimiento aprendido en un método de optimización homotópica. La optimización homotópica, imitando una cadena de pensamiento, ayuda a resolver problemas desafiantes de seguimiento de trayectorias para aumentar la diversidad de las demostraciones. Demostramos nuestro éxito entrenando un controlador neural generalizable y evaluándolo tanto en simulación como en el mundo real. Nuestro método logra más de un 10% de mejora en las tasas de éxito en comparación con los principales baselines. El sitio web del proyecto con resultados animados está disponible en https://meowuu7.github.io/DexTrack/.
El razonamiento matemático en Modelos de Lenguaje Grandes (LLMs) suele evaluarse utilizando benchmarks con rangos numéricos limitados, lo que no refleja la resolución de problemas del mundo real en diversas escalas. Además, la mayoría de los métodos de evaluación existentes solo comparan las salidas del modelo con respuestas verdaderas, ocultando percepciones sobre los procesos de razonamiento. Para abordar estas limitaciones, presentamos GSM-Ranges, un generador de conjuntos de datos derivado de GSM8K que perturba sistemáticamente los valores numéricos en problemas matemáticos para evaluar la robustez del modelo en diferentes escalas numéricas. Además, proponemos una metodología de calificación novedosa que distingue entre errores lógicos y no lógicos, ofreciendo una evaluación más precisa de los procesos de razonamiento más allá de la precisión computacional. Nuestros experimentos con diversos modelos revelan un aumento significativo en las tasas de errores lógicos, de hasta 14 puntos porcentuales, a medida que aumenta la complejidad numérica, demostrando una debilidad general en el razonamiento con valores numéricos fuera de la distribución. Además, aunque los modelos muestran una alta precisión en tareas aritméticas independientes, su rendimiento se deteriora sustancialmente cuando los cálculos se integran en problemas verbales. Estos hallazgos proporcionan una evaluación integral de las capacidades de razonamiento matemático de los LLMs e informan sobre las futuras direcciones de investigación para mejorar la generalización numérica en los modelos de lenguaje.
La creación de magia e ilusiones es uno de los aspectos más emocionantes del cine, con los efectos visuales (VFX) sirviendo como la fuerza impulsora detrás de experiencias cinematográficas inolvidables. Mientras que los avances recientes en inteligencia artificial generativa han impulsado el progreso en la síntesis genérica de imágenes y videos, el dominio de la generación de VFX controlables sigue siendo relativamente poco explorado. En este trabajo, proponemos un nuevo paradigma para la generación de VFX animados como animación de imágenes, donde los efectos dinámicos se generan a partir de descripciones textuales amigables para el usuario e imágenes de referencia estáticas. Nuestro trabajo realiza dos contribuciones principales: (i) Open-VFX, el primer conjunto de datos de videos VFX de alta calidad que abarca 15 categorías de efectos diversas, anotado con descripciones textuales, máscaras de segmentación de instancias para condicionamiento espacial y marcas de tiempo de inicio-fin para control temporal. (ii) VFX Creator, un marco de generación de VFX controlable simple pero efectivo basado en un Transformador de Difusión de Video. El modelo incorpora un adaptador LoRA controlable espacial y temporal, que requiere un mínimo de videos de entrenamiento. Específicamente, un módulo de control de máscara plug-and-play permite la manipulación espacial a nivel de instancia, mientras que los marcadores de tiempo de inicio-fin tokenizados incrustados en el proceso de difusión, junto con el codificador de texto, permiten un control temporal preciso sobre el tiempo y ritmo de los efectos. Experimentos extensos en el conjunto de pruebas de Open-VFX demuestran la superioridad del sistema propuesto en la generación de efectos realistas y dinámicos, logrando un rendimiento de vanguardia y capacidad de generalización tanto en control espacial como temporal. Además, presentamos una métrica especializada para evaluar la precisión del control temporal. Al unir técnicas tradicionales de VFX con enfoques generativos, VFX Creator desbloquea nuevas posibilidades para la generación eficiente y de alta calidad de efectos de video, haciendo que los VFX avanzados sean accesibles a un público más amplio.
La reconstrucción 3D latente ha demostrado un gran potencial para potenciar la comprensión semántica 3D y la generación 3D al destilar características 2D en el espacio 3D. Sin embargo, los enfoques existentes tienen dificultades con la brecha de dominio entre el espacio de características 2D y las representaciones 3D, lo que resulta en un rendimiento de renderización degradado. Para abordar este desafío, proponemos un marco novedoso que integra la conciencia 3D en el espacio latente 2D. El marco consta de tres etapas: (1) un método de autoencodificación consciente de la correspondencia que mejora la consistencia 3D de las representaciones latentes 2D, (2) un campo de radiancia latente (LRF) que eleva estas representaciones 2D conscientes de 3D al espacio 3D, y (3) una estrategia de alineación VAE-Campo de Radiancia (VAE-RF) que mejora la decodificación de imágenes a partir de las representaciones 2D renderizadas. Experimentos extensos demuestran que nuestro método supera a los enfoques de reconstrucción 3D latente de vanguardia en cuanto a rendimiento de síntesis y generalizabilidad entre conjuntos de datos diversos de escenas interiores y exteriores. Hasta donde sabemos, este es el primer trabajo que muestra que las representaciones de campo de radiancia construidas a partir de representaciones latentes 2D pueden producir un rendimiento de reconstrucción 3D fotorrealista.
La detección de anomalías industriales ha avanzado gracias a conjuntos de datos como MVTec-AD y VisA. Sin embargo, estos sufren limitaciones en cuanto al número de muestras defectuosas, tipos de defectos y disponibilidad de escenas del mundo real. Estas restricciones impiden a los investigadores explorar más a fondo el rendimiento de la detección industrial con mayor precisión. Con este fin, proponemos un nuevo conjunto de datos de detección de anomalías a gran escala llamado 3CAD, derivado de líneas de producción reales de 3C. Específicamente, el 3CAD propuesto incluye ocho tipos diferentes de piezas fabricadas, con un total de 27,039 imágenes de alta resolución etiquetadas con anomalías a nivel de píxel. Las características clave del 3CAD son que cubre regiones anómalas de diferentes tamaños, múltiples tipos de anomalías y la posibilidad de múltiples regiones anómalas y múltiples tipos de anomalías por imagen anómala. Este es el conjunto de datos de detección de anomalías más grande y el primero dedicado al control de calidad de productos 3C para la exploración y desarrollo de la comunidad. Mientras tanto, presentamos un marco simple pero efectivo para la detección de anomalías no supervisada: un paradigma de detección de Grueso a Fino con Guía de Recuperación (CFRG). Para detectar pequeñas anomalías de defecto, el CFRG propuesto utiliza un paradigma de detección de grueso a fino. Específicamente, utilizamos un modelo de destilación heterogéneo para la localización gruesa y luego la localización fina a través de un modelo de segmentación. Además, para capturar mejor los patrones normales, introducimos características de recuperación como guía. Finalmente, informamos los resultados de nuestro marco CFRG y de métodos populares de detección de anomalías en el conjunto de datos 3CAD, demostrando una fuerte competitividad y proporcionando un punto de referencia altamente desafiante para promover el desarrollo del campo de detección de anomalías. Los datos y el código están disponibles en: https://github.com/EnquanYang2022/3CAD.