Artículos de investigación en IA seleccionados diariamente con traducciones
La capacidad de contexto largo es fundamental para los modelos de base multi-modal. Presentamos LongVILA, una solución integral para modelos visión-lenguaje de largo contexto, que incluye sistema, entrenamiento de modelos y desarrollo de conjuntos de datos. En el lado del sistema, introducimos el primer sistema de Paralelismo de Secuencia Multi-Modal (MM-SP) que permite el entrenamiento e inferencia de largo contexto, posibilitando un entrenamiento de longitud de contexto de 2M en 256 GPUs. MM-SP también es eficiente, siendo de 2.1x a 5.7x más rápido que el Paralelismo de Secuencia Estilo Anillo y de 1.1x a 1.4x más rápido que Megatron-LM en configuraciones solo de texto. Además, se integra perfectamente con Hugging Face Transformers. Para el entrenamiento del modelo, proponemos un pipeline de cinco etapas que comprende alineación, pre-entrenamiento, extensión de contexto y ajuste fino supervisado conjunto largo-corto. En cuanto a los conjuntos de datos, construimos meticulosamente conjuntos de datos de pre-entrenamiento visual-lingüístico a gran escala y conjuntos de datos de seguimiento de instrucciones en video largo para respaldar nuestro proceso de entrenamiento en múltiples etapas. La solución integral amplía el número de cuadros factible de VILA en un factor de 128 (de 8 a 1024 cuadros) y mejora la puntuación de subtitulación de video largo de 2.00 a 3.26 (1.6x), logrando un 99.5% de precisión en un video de 1400 cuadros (longitud de contexto de 274k) aguja en un pajar. LongVILA-8B también demuestra una mejora consistente en el rendimiento en videos largos dentro del benchmark VideoMME a medida que aumentan los cuadros de video.
Los modelos de reconstrucción 3D de mundo abierto han recibido recientemente una atención significativa. Sin embargo, sin un sesgo inductivo 3D suficiente, los métodos existentes suelen implicar costos de entrenamiento costosos y tienen dificultades para extraer mallas 3D de alta calidad. En este trabajo, presentamos MeshFormer, un modelo de reconstrucción de vista dispersa que aprovecha explícitamente la estructura nativa 3D, la guía de entrada y la supervisión de entrenamiento. Específicamente, en lugar de utilizar una representación de triplano, almacenamos características en voxels dispersos en 3D y combinamos transformadores con convoluciones 3D para aprovechar una estructura 3D explícita y un sesgo proyectivo. Además de la entrada RGB de vista dispersa, requerimos que la red reciba una entrada y genere mapas normales correspondientes. Los mapas normales de entrada pueden ser predichos por modelos de difusión 2D, lo que ayuda significativamente en la guía y refinamiento del aprendizaje de la geometría. Además, al combinar la supervisión de la Función de Distancia Firmada (SDF) con el renderizado de superficies, aprendemos directamente a generar mallas de alta calidad sin necesidad de procesos de entrenamiento multi-etapa complejos. Al incorporar estos sesgos 3D explícitos, MeshFormer puede ser entrenado de manera eficiente y producir mallas texturizadas de alta calidad con detalles geométricos refinados. También puede integrarse con modelos de difusión 2D para habilitar tareas rápidas de imagen única a 3D y texto a 3D. Página del proyecto: https://meshformer3d.github.io
La segmentación robusta y precisa de escenas se ha convertido en una funcionalidad central en varias tareas de reconocimiento visual y navegación. Esto ha inspirado el reciente desarrollo del Modelo Segment Anything (SAM), un modelo base para la segmentación general de máscaras. Sin embargo, SAM está principalmente diseñado para imágenes RGB de un solo modal, lo que limita su aplicabilidad a datos multimodales capturados con conjuntos de sensores ampliamente adoptados, como LiDAR más RGB, profundidad más RGB, térmico más RGB, etc. Desarrollamos MM-SAM, una extensión y expansión de SAM que soporta el procesamiento cruz-modal y multimodal para una segmentación robusta y mejorada con diferentes conjuntos de sensores. MM-SAM presenta dos diseños clave, a saber, transferencia cruz-modal no supervisada y fusión multimodal débilmente supervisada, permitiendo una adaptación eficiente en etiquetas y parámetros hacia diversas modalidades de sensores. Aborda tres desafíos principales: 1) adaptación hacia diversos sensores no-RGB para procesamiento de un solo modal, 2) procesamiento sinérgico de datos multimodales a través de fusión de sensores, y 3) entrenamiento sin máscaras para diferentes tareas posteriores. Experimentos extensos muestran que MM-SAM supera consistentemente a SAM por márgenes amplios, demostrando su efectividad y robustez a través de varios sensores y modalidades de datos.
La generación de texto a video (T2V) ha ganado una atención significativa debido a sus amplias aplicaciones en la generación, edición, mejora y traducción de videos, etc. Sin embargo, la síntesis de videos de alta calidad (HQ) es extremadamente desafiante debido a los movimientos diversos y complejos que existen en el mundo real. La mayoría de los trabajos existentes luchan por abordar este problema al recolectar videos HQ a gran escala, los cuales no están disponibles para la comunidad. En este trabajo, demostramos que los datos públicamente disponibles, limitados y de baja calidad (LQ), son suficientes para entrenar un generador de videos HQ sin recapturar o ajustar finamente. Factorizamos todo el proceso de generación T2V en dos pasos: generar una imagen condicionada a un título altamente descriptivo, y sintetizar el video condicionado a la imagen generada y un título conciso de detalles de movimiento. Específicamente, presentamos Factorized-Dreamer, un marco espacio-temporal factorizado con varios diseños críticos para la generación T2V, incluyendo un adaptador para combinar incrustaciones de texto e imagen, un módulo de atención cruzada consciente de píxeles para capturar información de imagen a nivel de píxeles, un codificador de texto T5 para comprender mejor la descripción de movimiento, y un PredictNet para supervisar flujos ópticos. Además, presentamos un programa de ruido, que desempeña un papel clave en garantizar la calidad y estabilidad de la generación de videos. Nuestro modelo reduce los requisitos en títulos detallados y videos HQ, y puede ser entrenado directamente en conjuntos de datos LQ limitados con títulos ruidosos y breves como WebVid-10M, aliviando en gran medida el costo de recolectar pares de video-texto HQ a gran escala. Experimentos extensos en una variedad de tareas de generación T2V e imagen a video demuestran la efectividad de nuestro Factorized-Dreamer propuesto. Nuestros códigos fuente están disponibles en https://github.com/yangxy/Factorized-Dreamer/.
El diseño de chips depende en gran medida de la generación de circuitos Booleanos, como los Grafos de AND-Inversor (AIGs), a partir de descripciones funcionales como tablas de verdad. Si bien los avances recientes en aprendizaje profundo han buscado acelerar el diseño de circuitos, estos esfuerzos se han centrado principalmente en tareas distintas a la síntesis, y los métodos heurísticos tradicionales se han estancado. En este documento, presentamos ShortCircuit, una arquitectura novedosa basada en transformadores que aprovecha las propiedades estructurales de los AIGs y realiza una exploración eficiente del espacio. Contrariamente a enfoques anteriores que intentaban la generación de circuitos lógicos de extremo a extremo utilizando redes profundas, ShortCircuit emplea un proceso de dos fases que combina aprendizaje supervisado con aprendizaje por refuerzo para mejorar la generalización a tablas de verdad no vistas. También proponemos una variante de AlphaZero para manejar el espacio de estados exponencialmente grande y la escasez de recompensas, lo que permite descubrir diseños casi óptimos. Para evaluar el rendimiento generativo de nuestro modelo entrenado, extraemos 500 tablas de verdad de un conjunto de referencia de 20 circuitos del mundo real. ShortCircuit genera con éxito AIGs para el 84.6% de las tablas de verdad de prueba de 8 entradas, y supera a la herramienta de síntesis lógica de vanguardia, ABC, en un 14.61% en cuanto al tamaño de los circuitos.
La estimación de flujo óptico en tiempo real de alta precisión es crucial para diversas aplicaciones del mundo real. Si bien los métodos de flujo óptico basados en aprendizaje recientes han logrado una alta precisión, a menudo conllevan costos computacionales significativos. En este artículo, proponemos un método de flujo óptico altamente eficiente que equilibra alta precisión con una reducción en las demandas computacionales. Basándonos en NeuFlow v1, introducimos nuevos componentes que incluyen una estructura mucho más ligera y un módulo de refinamiento rápido. Ambos módulos ayudan a mantener las demandas computacionales ligeras al tiempo que proporcionan una precisión cercana al estado del arte. En comparación con otros métodos de vanguardia, nuestro modelo logra una aceleración de 10x-70x mientras mantiene un rendimiento comparable tanto en datos sintéticos como en datos del mundo real. Es capaz de funcionar a más de 20 FPS en imágenes de resolución 512x384 en un Jetson Orin Nano. El código completo de entrenamiento y evaluación está disponible en https://github.com/neufieldrobotics/NeuFlow_v2.
La generación abierta de mundos en 3D ha atraído recientemente considerable atención. Si bien muchos métodos de imagen única a 3D han producido resultados visualmente atractivos, a menudo carecen de suficiente controlabilidad y tienden a generar regiones alucinadas que pueden no coincidir con las expectativas de los usuarios. En este documento, exploramos un escenario importante en el que la entrada consiste en una o unas pocas imágenes 2D no alineadas de un solo objeto, con poca o ninguna superposición. Proponemos un método novedoso, SpaRP, para reconstruir una malla texturizada en 3D y estimar las poses relativas de la cámara para estas imágenes de vista escasa. SpaRP destila conocimientos de modelos de difusión 2D y los ajusta finamente para deducir implícitamente las relaciones espaciales en 3D entre las vistas escasas. El modelo de difusión se entrena para predecir conjuntamente representaciones sustitutas para las poses de la cámara y las imágenes de múltiples vistas del objeto bajo poses conocidas, integrando toda la información de las vistas escasas de entrada. Estas predicciones se utilizan luego para lograr la reconstrucción en 3D y la estimación de poses, y el modelo 3D reconstruido puede usarse para refinar aún más las poses de cámara de las vistas de entrada. A través de experimentos extensos en tres conjuntos de datos, demostramos que nuestro método no solo supera significativamente a los métodos de referencia en cuanto a calidad de reconstrucción en 3D y precisión de predicción de poses, sino que también muestra una fuerte eficiencia. Solo requiere aproximadamente 20 segundos para producir una malla texturizada y poses de cámara para las vistas de entrada. Página del proyecto: https://chaoxu.xyz/sparp.
La atribución precisa de la autoría es crucial para mantener la integridad del contenido digital, mejorar las investigaciones forenses y mitigar los riesgos de desinformación y plagio. Abordar la necesidad imperativa de una adecuada atribución de la autoría es esencial para mantener la credibilidad y responsabilidad de la autenticidad de la autoría. Los avances rápidos de los Modelos de Lenguaje Extensos (MLE) han difuminado las líneas entre la autoría humana y la automática, planteando desafíos significativos para los métodos tradicionales. Presentamos una revisión exhaustiva de la literatura que examina las últimas investigaciones sobre atribución de autoría en la era de los MLE. Esta encuesta explora sistemáticamente el panorama de este campo al categorizar cuatro problemas representativos: (1) Atribución de Texto Escrito por Humanos; (2) Detección de Texto Generado por MLE; (3) Atribución de Texto Generado por MLE; y (4) Atribución de Texto Coescrito por Humano y MLE. También discutimos los desafíos relacionados con garantizar la generalización y explicabilidad de los métodos de atribución de autoría. La generalización requiere la capacidad de generalizar a través de diversos dominios, mientras que la explicabilidad enfatiza proporcionar información transparente y comprensible sobre las decisiones tomadas por estos modelos. Al evaluar las fortalezas y limitaciones de los métodos y referencias existentes, identificamos problemas abiertos clave y futuras direcciones de investigación en este campo. Esta revisión de la literatura sirve como una hoja de ruta para investigadores y profesionales interesados en comprender el estado del arte en este campo en constante evolución. Recursos adicionales y una lista seleccionada de artículos están disponibles y se actualizan regularmente en https://llm-authorship.github.io.
La correcta inserción de objetos virtuales en imágenes de escenas del mundo real requiere una comprensión profunda de la iluminación, geometría y materiales de la escena, así como del proceso de formación de la imagen. Si bien los modelos de difusión a gran escala recientes han demostrado sólidas capacidades generativas e inpainting, observamos que los modelos actuales no comprenden suficientemente la escena mostrada en una sola imagen para generar efectos de iluminación consistentes (sombras, reflejos brillantes, etc.) mientras se preserva la identidad y los detalles del objeto compuesto. Proponemos utilizar un modelo de difusión grande personalizado como guía para un proceso de renderizado inverso basado en la física. Nuestro método recupera los parámetros de iluminación y tone-mapping de la escena, lo que permite la composición fotorrealista de objetos virtuales arbitrarios en fotogramas individuales o videos de escenas interiores o exteriores. Nuestro flujo de trabajo basado en la física además posibilita el refinamiento automático de materiales y tone-mapping.
En este trabajo, proponemos un enfoque T2I controlable basado en trayectorias y sin entrenamiento, denominado TraDiffusion. Este método novedoso permite a los usuarios guiar la generación de imágenes de forma sencilla a través de trayectorias del ratón. Para lograr un control preciso, diseñamos una función de energía de conciencia de distancia para guiar de manera efectiva las variables latentes, asegurando que el enfoque de la generación se encuentre dentro de las áreas definidas por la trayectoria. La función de energía abarca una función de control para acercar la generación a la trayectoria especificada y una función de movimiento para disminuir la actividad en áreas distantes de la trayectoria. A través de experimentos extensos y evaluaciones cualitativas en el conjunto de datos COCO, los resultados revelan que TraDiffusion facilita un control de imágenes más simple y natural. Además, demuestra la capacidad de manipular regiones destacadas, atributos y relaciones dentro de las imágenes generadas, junto con una entrada visual basada en trayectorias arbitrarias o mejoradas.
Los agentes de Modelos de Lenguaje (LM, por sus siglas en inglés) para ciberseguridad que son capaces de identificar de forma autónoma vulnerabilidades y ejecutar exploits tienen el potencial de causar un impacto real en el mundo. Los responsables de políticas, proveedores de modelos y otros investigadores en las comunidades de IA y ciberseguridad están interesados en cuantificar las capacidades de tales agentes para ayudar a mitigar el ciberriesgo e investigar oportunidades para pruebas de penetración. Con ese fin, presentamos Cybench, un marco para especificar tareas de ciberseguridad y evaluar agentes en esas tareas. Incluimos 40 tareas de Capture the Flag (CTF) de nivel profesional de 4 competiciones CTF distintas, seleccionadas por ser recientes, significativas y abarcar una amplia gama de dificultades. Cada tarea incluye su propia descripción, archivos de inicio, y se inicializa en un entorno donde un agente puede ejecutar comandos bash y observar salidas. Dado que muchas tareas están más allá de las capacidades de los agentes LM existentes, introducimos subtareas, que descomponen una tarea en pasos intermedios para una evaluación más graduada; añadimos subtareas para 17 de las 40 tareas. Para evaluar las capacidades del agente, construimos un agente de ciberseguridad y evaluamos 7 modelos: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, y Llama 3.1 405B Instruct. Sin orientación, encontramos que los agentes solo pueden resolver las tareas completas más fáciles que llevaron a equipos humanos hasta 11 minutos resolver, siendo Claude 3.5 Sonnet y GPT-4o los que tienen las tasas de éxito más altas. Finalmente, las subtareas proporcionan más señal para medir el rendimiento en comparación con las ejecuciones sin guía, con los modelos logrando una tasa de éxito un 3.2\% mayor en tareas completas con orientación de subtareas que sin orientación de subtareas. Todo el código y los datos están disponibles públicamente en https://cybench.github.io