Artículos de investigación en IA seleccionados diariamente con traducciones
En este informe presentamos UltraShape 1.0, un marco de difusión 3D escalable para la generación de geometría 3D de alta fidelidad. El enfoque propuesto adopta un pipeline de generación en dos etapas: primero se sintetiza una estructura global tosca que luego se refina para producir geometría detallada y de alta calidad. Para respaldar una generación 3D confiable, desarrollamos un pipeline integral de procesamiento de datos que incluye un novedoso método de procesamiento de estanqueidad y un filtrado de datos de alta calidad. Este pipeline mejora la calidad geométrica de los conjuntos de datos 3D disponibles públicamente mediante la eliminación de muestras de baja calidad, el relleno de huecos y el engrosamiento de estructuras delgadas, preservando al mismo tiempo los detalles geométricos de grano fino. Para permitir un refinamiento de geometría de grano fino, desacoplamos la localización espacial de la síntesis de detalles geométricos en el proceso de difusión. Logramos esto realizando un refinamiento basado en vóxeles en ubicaciones espaciales fijas, donde las consultas de vóxeles derivadas de la geometría tosca proporcionan anclajes posicionales explícitos codificados mediante RoPE, permitiendo que el modelo de difusión se centre en sintetizar detalles geométricos locales dentro de un espacio de solución reducido y estructurado. Nuestro modelo se entrena exclusivamente con conjuntos de datos 3D disponibles públicamente, logrando una sólida calidad geométrica a pesar de los recursos de entrenamiento limitados. Evaluaciones exhaustivas demuestran que UltraShape 1.0 se desempeña de manera competitiva con los métodos de código abierto existentes, tanto en calidad de procesamiento de datos como en generación de geometría. Todo el código y los modelos entrenados se liberarán para apoyar futuras investigaciones.
Los modelos unificados de generación y edición recientemente desarrollados han logrado un éxito notable gracias a su impresionante rendimiento. Estos modelos se basan principalmente en indicaciones de texto para la edición y generación basadas en instrucciones, pero el lenguaje a menudo no logra capturar las ubicaciones de edición deseadas por los usuarios ni los detalles visuales de grano fino. Con este fin, proponemos dos tareas: la edición y generación basadas en garabatos, que permiten una creación más flexible en la interfaz gráfica de usuario (GUI) combinando texto, imágenes y bocetos libres del usuario. Presentamos DreamOmni3, abordando dos desafíos: la creación de datos y el diseño del marco de trabajo. Nuestra canalización de síntesis de datos incluye dos partes: edición y generación basadas en garabatos. Para la edición basada en garabatos, definimos cuatro tareas: edición basada en garabatos e instrucciones, edición multimodal basada en garabatos e instrucciones, fusión de imágenes y edición de dibujos. Basándonos en el conjunto de datos DreamOmni2, extraemos regiones editables y superponemos cajas, círculos, dibujos a mano alzada o imágenes recortadas para construir datos de entrenamiento. Para la generación basada en garabatos, definimos tres tareas: generación basada en garabatos e instrucciones, generación multimodal basada en garabatos e instrucciones, y generación de dibujos, siguiendo canalizaciones de creación de datos similares. Para el marco de trabajo, en lugar de utilizar máscaras binarias, que tienen dificultades con ediciones complejas que involucran múltiples garabatos, imágenes e instrucciones, proponemos un esquema de entrada conjunto que alimenta al modelo tanto con la imagen original como con la imagen fuente con garabatos, utilizando diferentes colores para distinguir regiones y simplificar el procesamiento. Al aplicar las mismas codificaciones de índice y posición a ambas imágenes, el modelo puede localizar con precisión las regiones garabateadas manteniendo una edición precisa. Finalmente, establecemos puntos de referencia integrales para estas tareas para promover futuras investigaciones. Los resultados experimentales demuestran que DreamOmni3 logra un rendimiento excepcional, y los modelos y el código serán liberados públicamente.
Formulamos el modelado del lenguaje de contexto largo como un problema de aprendizaje continuo en lugar de un problema de diseño arquitectónico. Bajo esta formulación, utilizamos únicamente una arquitectura estándar: un Transformer con atención de ventana deslizante. Sin embargo, nuestro modelo continúa aprendiendo durante el tiempo de prueba mediante la predicción del siguiente token en el contexto dado, comprimiendo el contexto que lee en sus pesos. Adicionalmente, mejoramos la inicialización del modelo para el aprendizaje durante la prueba mediante meta-aprendizaje durante el entrenamiento. En general, nuestro método, una forma de Entrenamiento en Tiempo de Prueba (TTT), es de Extremo a Extremo tanto en el tiempo de prueba (mediante predicción del siguiente token) como en el tiempo de entrenamiento (mediante meta-aprendizaje), a diferencia de formas anteriores. Realizamos experimentos exhaustivos centrándonos en las propiedades de escalado. En particular, para modelos de 3B entrenados con 164B tokens, nuestro método (TTT-E2E) escala con la longitud del contexto de la misma manera que un Transformer con atención completa, mientras que otros, como Mamba 2 y Gated DeltaNet, no lo hacen. Sin embargo, de manera similar a las RNN, TTT-E2E tiene una latencia de inferencia constante independientemente de la longitud del contexto, lo que lo hace 2.7 veces más rápido que la atención completa para un contexto de 128K. Nuestro código está disponible públicamente.
Evaluamos sistemáticamente los métodos de ajuste fino eficiente en parámetros (PEFT) bajo el paradigma de Aprendizaje por Refuerzo con Recompensas Verificables (RLVR). RLVR incentiva a los modelos de lenguaje a mejorar sus capacidades de razonamiento mediante retroalimentación verificable; sin embargo, aunque métodos como LoRA son de uso común, la arquitectura PEFT óptima para RLVR permanece sin identificar. En este trabajo, realizamos la primera evaluación exhaustiva de más de 12 metodologías PEFT en las familias DeepSeek-R1-Distill utilizando benchmarks de razonamiento matemático. Nuestros resultados empíricos desafían la adopción por defecto del LoRA estándar con tres hallazgos principales. Primero, demostramos que variantes estructurales, como DoRA, AdaLoRA y MiSS, superan consistentemente a LoRA. Segundo, descubrimos un fenómeno de colapso espectral en las estrategias de inicialización basadas en SVD (por ejemplo, PiSSA, MiLoRA), atribuyendo su fallo a una desalineación fundamental entre las actualizaciones de componentes principales y la optimización por RL. Además, nuestras ablaciones revelan que la reducción extrema de parámetros (por ejemplo, VeRA, Rango-1) perjudica severamente la capacidad de razonamiento. Realizamos además estudios de ablación y experimentos de escalado para validar nuestros hallazgos. Este trabajo proporciona una guía definitiva para abogar por una mayor exploración de los métodos de RL eficientes en parámetros.
La tarea de localización de incidencias tiene como objetivo identificar las ubicaciones en un repositorio de software que requieren modificación dada una descripción de la incidencia en lenguaje natural. Esta tarea es fundamental pero desafiante en la ingeniería de software automatizada debido a la brecha semántica entre la descripción de la incidencia y la implementación del código fuente. Esta brecha se manifiesta como dos desajustes: (1) desajustes síntoma-causa, donde las descripciones no revelan explícitamente las causas raíz subyacentes; (2) desajustes uno-a-muchos, donde una sola incidencia corresponde a múltiples entidades de código interdependientes. Para abordar estos dos desajustes, proponemos GraphLocator, un enfoque que mitiga los desajustes síntoma-causa mediante el descubrimiento de estructura causal y resuelve los desajustes uno-a-muchos mediante el desentrelazado dinámico de incidencias. El artefacto clave es el grafo causal de incidencias (CIG), en el que los vértices representan las subincidencias descubiertas junto con sus entidades de código asociadas, y las aristas codifican las dependencias causales entre ellas. El flujo de trabajo de GraphLocator consta de dos fases: localización de vértices síntoma y descubrimiento dinámico del CIG; primero identifica las ubicaciones de los síntomas en el grafo del repositorio, luego expande dinámicamente el CIG razonando iterativamente sobre los vértices vecinos. Los experimentos en tres conjuntos de datos del mundo real demuestran la efectividad de GraphLocator: (1) En comparación con los baselines, GraphLocator logra una localización más precisa con mejoras promedio de +19.49% en la exhaustividad a nivel de función y +11.89% en la precisión. (2) GraphLocator supera a los baselines tanto en escenarios de desajuste síntoma-causa como uno-a-muchos, logrando una mejora en la exhaustividad de +16.44% y +19.18%, y una mejora en la precisión de +7.78% y +13.23%, respectivamente. (3) El CIG generado por GraphLocator produce la mayor mejora relativa, resultando en un aumento del 28.74% en el rendimiento de la tarea de resolución posterior.
Las arquitecturas Mixture-of-Experts (MoE) han impulsado la escalabilidad de los Modelos de Lenguaje a Gran Escala (LLM) activando solo un subconjunto disperso de parámetros por entrada, lo que permite un rendimiento de vanguardia con un coste computacional reducido. A medida que estos modelos se despliegan cada vez más en dominios críticos, comprender y reforzar sus mecanismos de alineación es esencial para prevenir resultados perjudiciales. Sin embargo, la investigación existente sobre seguridad en LLM se ha centrado casi exclusivamente en arquitecturas densas, dejando en gran medida sin examinar las propiedades de seguridad únicas de los MoE. El diseño modular y de activación dispersa de los MoE sugiere que los mecanismos de seguridad pueden operar de manera diferente a como lo hacen en los modelos densos, lo que plantea interrogantes sobre su robustez. En este artículo presentamos GateBreaker, el primer marco de ataque ligero, independiente de la arquitectura y que no requiere entrenamiento, que compromete la alineación de seguridad de los MoE LLM modernos en tiempo de inferencia. GateBreaker opera en tres etapas: (i) perfilado a nivel de puerta, que identifica a los expertos de seguridad a los que se enruta desproporcionadamente en entradas perjudiciales, (ii) localización a nivel de experto, que localiza la estructura de seguridad dentro de los expertos de seguridad, y (iii) eliminación selectiva de seguridad, que desactiva la estructura de seguridad identificada para comprometer la alineación de seguridad. Nuestro estudio muestra que la seguridad en los MoE se concentra dentro de un pequeño subconjunto de neuronas coordinadas por el enrutamiento disperso. La desactivación selectiva de estas neuronas, aproximadamente el 3% de las neuronas en las capas de expertos objetivo, aumenta significativamente la tasa media de éxito de ataque (ASR) del 7.4% al 64.9% contra los ocho últimos MoE LLM alineados, con una degradación limitada de la utilidad. Estas neuronas de seguridad se transfieren entre modelos de la misma familia, aumentando la ASR del 17.9% al 67.7% con un ataque de transferencia de un solo disparo. Además, GateBreaker se generaliza a cinco modelos de lenguaje visual (VLM) MoE, logrando una ASR del 60.9% en entradas de imagen no seguras.