Artículos de investigación en IA seleccionados diariamente con traducciones
El Sudeste Asiático (SEA) es una región de extraordinaria diversidad lingüística y cultural, pero sigue estando significativamente subrepresentada en la investigación de visión y lenguaje (VL). Esto a menudo resulta en modelos de inteligencia artificial (IA) que no logran captar los matices culturales de SEA. Para llenar este vacío, presentamos SEA-VL, una iniciativa de código abierto dedicada a desarrollar datos de alta calidad y culturalmente relevantes para los idiomas de SEA. Al involucrar a colaboradores de países de SEA, SEA-VL busca garantizar una mejor relevancia y diversidad cultural, fomentando una mayor inclusión de lenguas subrepresentadas en la investigación VL. Más allá del crowdsourcing, nuestra iniciativa da un paso más en la exploración de la recopilación automática de imágenes culturalmente relevantes mediante rastreo web y generación de imágenes. En primer lugar, encontramos que el rastreo de imágenes alcanza aproximadamente un 85% de relevancia cultural, siendo más eficiente en costos y tiempo que el crowdsourcing. En segundo lugar, a pesar del progreso sustancial en los modelos generativos de visión, las imágenes sintéticas siguen siendo poco confiables para reflejar con precisión las culturas de SEA. Las imágenes generadas a menudo no logran reflejar las tradiciones matizadas y los contextos culturales de la región. En conjunto, recopilamos 1.28 millones de imágenes culturalmente relevantes de SEA, más de 50 veces más grande que otros conjuntos de datos existentes. A través de SEA-VL, buscamos cerrar la brecha de representación en SEA, fomentando el desarrollo de sistemas de IA más inclusivos que representen auténticamente las diversas culturas de toda la región.
Mejorar el razonamiento en Modelos Multimodales de Gran Escala (LMMs) enfrenta desafíos únicos debido a la compleja interacción entre la percepción visual y el razonamiento lógico, particularmente en arquitecturas compactas de 3 mil millones de parámetros, donde las limitaciones arquitectónicas restringen la capacidad de razonamiento y la alineación de modalidades. Mientras que el aprendizaje por refuerzo basado en reglas (RL) sobresale en dominios de solo texto, su extensión multimodal enfrenta dos barreras críticas: (1) limitaciones de datos debido a respuestas ambiguas y escasez de ejemplos de razonamiento complejo, y (2) degradación del razonamiento fundamental inducida por el preentrenamiento multimodal. Para abordar estos desafíos, proponemos \method, un marco de dos etapas que adapta el RL basado en reglas para el razonamiento multimodal a través de la Mejora del Razonamiento Fundamental (FRE) seguida del Entrenamiento de Generalización Multimodal (MGT). La etapa FRE primero fortalece las habilidades de razonamiento utilizando datos de solo texto con RL basado en reglas, luego la etapa MGT generaliza estas capacidades de razonamiento a dominios multimodales. Los experimentos en Qwen2.5-VL-Instruct-3B demuestran que \method logra mejoras promedio del 4.83% y 4.5% sobre las líneas base en benchmarks multimodales y de solo texto, respectivamente, con una ganancia del 3.63% en tareas complejas de Juego de Fútbol. Estos resultados validan que la mejora del razonamiento basado en texto permite una generalización multimodal efectiva, ofreciendo un paradigma eficiente en datos que evita el costoso uso de datos de entrenamiento multimodal de alta calidad.
Abordamos la tarea de generación de música de larga duración—específicamente el desafiante problema de convertir letras en canciones—mediante la introducción de YuE, una familia de modelos fundacionales abiertos basados en la arquitectura LLaMA2. En concreto, YuE escala a billones de tokens y genera hasta cinco minutos de música mientras mantiene la alineación lírica, una estructura musical coherente y melodías vocales atractivas con acompañamiento adecuado. Esto se logra a través de (1) predicción de siguiente token desacoplada por pista para superar señales de mezcla densa, (2) condicionamiento progresivo estructural para la alineación lírica en contextos largos, y (3) una receta de preentrenamiento multitarea y multifase para converger y generalizar. Además, rediseñamos la técnica de aprendizaje en contexto para la generación de música, permitiendo transferencia de estilo versátil (por ejemplo, convertir el city pop japonés en un rap en inglés mientras se preserva el acompañamiento original) y generación bidireccional. Mediante una evaluación exhaustiva, demostramos que YuE iguala o incluso supera a algunos sistemas propietarios en musicalidad y agilidad vocal. Además, el ajuste fino de YuE permite controles adicionales y un mejor soporte para lenguajes minoritarios. Más allá de la generación, mostramos que las representaciones aprendidas por YuE funcionan bien en tareas de comprensión musical, donde los resultados de YuE igualan o superan a los métodos de vanguardia en el benchmark MARBLE. Palabras clave: letras a canción, generación de canciones, larga duración, modelo fundacional, generación de música.
Entrenar modelos para utilizar eficazmente el cómputo en tiempo de prueba es crucial para mejorar el rendimiento en razonamiento de los LLM. Los métodos actuales lo hacen principalmente mediante ajuste fino en trazas de búsqueda o ejecutando RL con recompensas de resultado 0/1, pero ¿utilizan estos enfoques eficientemente el cómputo en tiempo de prueba? ¿Seguirían escalando estos enfoques a medida que aumenta el presupuesto? En este artículo, intentamos responder estas preguntas. Formalizamos el problema de optimizar el cómputo en tiempo de prueba como un problema de meta-aprendizaje por refuerzo (RL), lo cual proporciona una perspectiva fundamentada sobre cómo gastar el cómputo en tiempo de prueba. Esta perspectiva nos permite ver el flujo extenso de salida del LLM como compuesto por varios episodios ejecutados en tiempo de prueba y nos lleva a utilizar una noción de arrepentimiento acumulado sobre los tokens de salida como una forma de medir la eficacia del cómputo en tiempo de prueba. Similar a cómo los algoritmos de RL pueden equilibrar mejor la exploración y la explotación durante el entrenamiento, minimizar el arrepentimiento acumulado también proporcionaría el mejor equilibrio entre exploración y explotación en el flujo de tokens. Aunque demostramos que los modelos de vanguardia no minimizan el arrepentimiento, es posible lograrlo maximizando una recompensa densa adicional junto con la recompensa de resultado 0/1 en RL. Esta recompensa adicional es el "progreso" realizado por cada bloque subsiguiente en el flujo de salida, cuantificado por el cambio en la probabilidad de éxito eventual. Utilizando estas ideas, desarrollamos Meta Reinforcement Fine-Tuning, o MRT, una nueva clase de métodos de ajuste fino para optimizar el cómputo en tiempo de prueba. MRT conduce a una mejora relativa de 2-3x en el rendimiento y aproximadamente 1.5x en eficiencia de tokens para razonamiento matemático en comparación con RL basado en recompensas de resultado.
En este informe presentamos Gemini Embedding, un modelo de embeddings de última generación que aprovecha el poder de Gemini, el modelo de lenguaje grande más avanzado de Google. Aprovechando las capacidades inherentes de Gemini para comprender múltiples idiomas y código, Gemini Embedding genera embeddings altamente generalizables para textos que abarcan numerosos idiomas y modalidades textuales. Las representaciones generadas por Gemini Embedding pueden precomputarse y aplicarse a una variedad de tareas posteriores, incluyendo clasificación, similitud, agrupamiento, clasificación por relevancia y recuperación de información. Evaluado en el Massive Multilingual Text Embedding Benchmark (MMTEB), que incluye más de cien tareas en más de 250 idiomas, Gemini Embedding supera sustancialmente a los modelos de última generación anteriores, demostrando mejoras considerables en la calidad de los embeddings. Al lograr un rendimiento de vanguardia en los benchmarks multilingües, en inglés y de código de MMTEB, nuestro modelo unificado muestra capacidades sólidas en una amplia selección de tareas y supera a modelos especializados específicos de dominio.
El rápido avance de los modelos de difusión ha catalizado un progreso notable en el campo de la generación de imágenes. Sin embargo, modelos prevalentes como Flux, SD3.5 y Midjourney aún enfrentan problemas como el sesgo del modelo, capacidades limitadas de renderizado de texto y una comprensión insuficiente de los matices culturales chinos. Para abordar estas limitaciones, presentamos Seedream 2.0, un modelo base de generación de imágenes bilingüe nativo chino-inglés que sobresale en diversas dimensiones, gestionando hábilmente indicaciones de texto tanto en chino como en inglés, y apoyando la generación de imágenes y el renderizado de texto bilingües. Desarrollamos un sistema de datos potente que facilita la integración de conocimiento, y un sistema de subtítulos que equilibra la precisión y la riqueza en la descripción de imágenes. En particular, Seedream está integrado con un modelo de lenguaje grande bilingüe desarrollado internamente como codificador de texto, permitiéndole aprender conocimiento nativo directamente de datos masivos. Esto le permite generar imágenes de alta fidelidad con matices culturales precisos y expresiones estéticas descritas en chino o inglés. Además, se aplica Glyph-Aligned ByT5 para un renderizado de texto flexible a nivel de caracteres, mientras que un Scaled ROPE generaliza bien a resoluciones no entrenadas. Optimizaciones posteriores al entrenamiento en múltiples fases, incluyendo iteraciones de SFT y RLHF, mejoran aún más la capacidad general. A través de una experimentación extensa, demostramos que Seedream 2.0 alcanza un rendimiento de vanguardia en múltiples aspectos, incluyendo seguimiento de indicaciones, estética, renderizado de texto y corrección estructural. Además, Seedream 2.0 ha sido optimizado mediante múltiples iteraciones de RLHF para alinear estrechamente su salida con las preferencias humanas, como lo revela su destacada puntuación ELO. Adicionalmente, puede adaptarse fácilmente a un modelo de edición de imágenes basado en instrucciones, como SeedEdit, con una fuerte capacidad de edición que equilibra el seguimiento de instrucciones y la consistencia de la imagen.
Presentamos MagicInfinite, un novedoso marco de Transformer de difusión (DiT) que supera las limitaciones tradicionales de la animación de retratos, ofreciendo resultados de alta fidelidad en diversos tipos de personajes: humanos realistas, figuras de cuerpo completo y personajes de anime estilizados. Soporta diversas poses faciales, incluyendo vistas de espalda, y anima uno o varios personajes con máscaras de entrada para la designación precisa del hablante en escenas con múltiples personajes. Nuestro enfoque aborda desafíos clave con tres innovaciones: (1) mecanismos de atención completa 3D con una estrategia de eliminación de ruido de ventana deslizante, permitiendo la generación infinita de videos con coherencia temporal y calidad visual en diversos estilos de personajes; (2) un esquema de aprendizaje curricular en dos etapas, integrando audio para sincronización labial, texto para dinámicas expresivas e imágenes de referencia para la preservación de la identidad, permitiendo un control multimodal flexible en secuencias largas; y (3) máscaras específicas por región con funciones de pérdida adaptativas para equilibrar el control textual global y la guía de audio local, soportando animaciones específicas por hablante. La eficiencia se mejora mediante nuestras innovadoras técnicas de destilación unificada de pasos y cfg, logrando un aumento de velocidad de inferencia de 20x sobre el modelo base: generando un video de 10 segundos a 540x540p en 10 segundos o 720x720p en 30 segundos en 8 GPUs H100, sin pérdida de calidad. Las evaluaciones en nuestro nuevo benchmark demuestran la superioridad de MagicInfinite en la sincronización audio-labial, la preservación de la identidad y la naturalidad del movimiento en diversos escenarios. Está disponible públicamente en https://www.hedra.com/, con ejemplos en https://magicinfinite.github.io/.
¿Cómo difieren dos individuos al realizar la misma acción? En este trabajo, presentamos Video Action Differencing (VidDiff), la novedosa tarea de identificar diferencias sutiles entre videos de la misma acción, la cual tiene múltiples aplicaciones, como el coaching y el aprendizaje de habilidades. Para facilitar el desarrollo en esta nueva tarea, primero creamos VidDiffBench, un conjunto de datos de referencia que contiene 549 pares de videos, con anotaciones humanas de 4,469 diferencias de acción detalladas y 2,075 marcas de tiempo que indican dónde ocurren estas diferencias. Nuestros experimentos demuestran que VidDiffBench representa un desafío significativo para los modelos multimodales grandes (LMMs) de última generación, como GPT-4o y Qwen2-VL. Al analizar los casos de fallo de los LMMs en VidDiffBench, destacamos dos desafíos clave para esta tarea: localizar subacciones relevantes en dos videos y realizar comparaciones detalladas entre fotogramas. Para superar estos desafíos, proponemos el método VidDiff, un flujo de trabajo agéntico que divide la tarea en tres etapas: propuesta de diferencias de acción, localización de fotogramas clave y diferenciación de fotogramas, donde cada etapa utiliza modelos base especializados. Para fomentar la investigación futura en esta nueva tarea, publicamos el conjunto de datos en https://huggingface.co/datasets/jmhb/VidDiffBench y el código en http://jmhb0.github.io/viddiff.
Los modelos multimodales unificados (UMMs, por sus siglas en inglés) han surgido como un paradigma poderoso en la investigación fundamental de visión por computadora, demostrando un potencial significativo tanto en la comprensión como en la generación de imágenes. Sin embargo, las investigaciones existentes en el dominio facial se centran principalmente en la comprensión de atributos faciales generales, con una capacidad limitada para manejar atributos faciales detallados y sin abordar capacidades de generación. Para superar estas limitaciones, proponemos UniF^2ace, el primer UMM diseñado específicamente para la comprensión y generación facial detallada. En general, entrenamos UniF^2ace en un conjunto de datos especializado construido internamente, utilizando dos técnicas de difusión mutuamente beneficiosas y una arquitectura de mezcla de expertos de dos niveles. Específicamente, primero construimos un conjunto de datos facial a gran escala, UniF^2ace-130K, que contiene 130K pares de imagen-texto con un millón de pares de preguntas y respuestas que abarcan una amplia gama de atributos faciales. Segundo, establecemos una conexión teórica entre la coincidencia de puntuación de difusión discreta y los modelos generativos enmascarados, optimizando simultáneamente los límites inferiores de evidencia, lo que mejora significativamente la capacidad del modelo para sintetizar detalles faciales. Finalmente, introducimos una mezcla de expertos tanto a nivel de token como de secuencia, permitiendo un aprendizaje eficiente de representaciones detalladas para tareas de comprensión y generación. Experimentos exhaustivos en UniF^2ace-130K demuestran que UniF^2ace supera a los UMMs y modelos generativos existentes, logrando un rendimiento superior en tareas de comprensión y generación.
Si bien los MLLM han demostrado capacidades adecuadas de comprensión de imágenes, aún tienen dificultades con la comprensión a nivel de píxeles, lo que limita sus aplicaciones prácticas. Las tareas de evaluación actuales, como VQA y la localización visual, siguen siendo demasiado generales para evaluar con precisión la comprensión detallada a nivel de píxeles. Aunque la segmentación es fundamental para la comprensión a nivel de píxeles, los métodos existentes a menudo requieren que los MLLM generen tokens implícitos, decodificados a través de decodificadores de píxeles externos. Este enfoque interrumpe el espacio de salida de texto del MLLM, lo que podría comprometer las capacidades lingüísticas y reducir la flexibilidad y extensibilidad, sin reflejar la comprensión intrínseca del modelo a nivel de píxeles. Por lo tanto, presentamos la Tarea de Anotación de Máscara Similar a Humana (HLMAT), un nuevo paradigma en el que los MLLM imitan a los anotadores humanos utilizando herramientas de segmentación interactiva. Al modelar la segmentación como un Proceso de Decisión de Markov de múltiples pasos, HLMAT permite que los MLLM generen iterativamente puntos de clic basados en texto, logrando máscaras de alta calidad sin cambios arquitectónicos ni tokens implícitos. A través de esta configuración, desarrollamos SegAgent, un modelo ajustado en trayectorias de anotación similares a las humanas, que alcanza un rendimiento comparable a los métodos de vanguardia (SOTA) y admite tareas adicionales como el refinamiento de máscaras y el filtrado de anotaciones. HLMAT proporciona un protocolo para evaluar la comprensión detallada a nivel de píxeles en los MLLM e introduce una tarea de toma de decisiones de múltiples pasos centrada en la visión que facilita la exploración de las habilidades de razonamiento visual de los MLLM. Nuestras adaptaciones del método de mejora de políticas StaR y la búsqueda en árbol guiada por PRM mejoran aún más la robustez del modelo en tareas de segmentación complejas, sentando las bases para futuros avances en la percepción visual detallada y la toma de decisiones de múltiples pasos para los MLLM.
Si bien los avances recientes en los modelos de difusión de texto a video permiten la generación de videos cortos de alta calidad a partir de un solo prompt, generar videos largos del mundo real en una sola pasada sigue siendo un desafío debido a la limitación de datos y los altos costos computacionales. Para abordar esto, varios trabajos proponen enfoques sin ajuste, es decir, extender modelos existentes para la generación de videos largos, utilizando específicamente múltiples prompts para permitir cambios de contenido dinámicos y controlados. Sin embargo, estos métodos se centran principalmente en garantizar transiciones suaves entre fotogramas adyacentes, lo que a menudo conduce a una deriva de contenido y una pérdida gradual de coherencia semántica en secuencias más largas. Para abordar este problema, proponemos Synchronized Coupled Sampling (SynCoS), un marco de inferencia novedoso que sincroniza las rutas de eliminación de ruido en todo el video, asegurando una coherencia a largo plazo tanto en fotogramas adyacentes como distantes. Nuestro enfoque combina dos estrategias de muestreo complementarias: muestreo inverso y basado en optimización, que garantizan transiciones locales fluidas y refuerzan la coherencia global, respectivamente. Sin embargo, alternar directamente entre estos muestreos desalinea las trayectorias de eliminación de ruido, interrumpiendo la guía del prompt e introduciendo cambios de contenido no deseados, ya que operan de manera independiente. Para resolver esto, SynCoS los sincroniza mediante un paso de tiempo anclado y un ruido base fijo, asegurando un muestreo completamente acoplado con rutas de eliminación de ruido alineadas. Experimentos extensos muestran que SynCoS mejora significativamente la generación de videos largos con múltiples eventos, logrando transiciones más suaves y una coherencia a largo plazo superior, superando enfoques anteriores tanto cuantitativa como cualitativamente.
El cómputo en tiempo de prueba está surgiendo como un nuevo paradigma para mejorar las capacidades de razonamiento complejo de múltiples pasos en los modelos de lenguaje, como lo demuestran los éxitos de o1 y o3 de OpenAI, así como R1 de DeepSeek. En comparación con el razonamiento explícito en el cómputo en tiempo de prueba, el razonamiento implícito es más eficiente en inferencia, ya que requiere menos tokens generados. Sin embargo, ¿por qué no surge la capacidad avanzada de razonamiento en el estilo de razonamiento implícito? En este trabajo, entrenamos GPT-2 desde cero en un conjunto de datos curado de razonamiento matemático de múltiples pasos y realizamos experimentos analíticos para investigar cómo los modelos de lenguaje realizan razonamiento implícito en tareas de múltiples pasos. Nuestros hallazgos revelan: 1) Los modelos de lenguaje pueden realizar razonamiento paso a paso y alcanzar una alta precisión tanto en pruebas dentro del dominio como fuera del dominio mediante razonamiento implícito. Sin embargo, esta capacidad solo surge cuando se entrena con datos de patrones fijos. 2) Por el contrario, las habilidades de razonamiento implícito que surgen del entrenamiento con datos de patrones no fijos tienden a sobreajustarse a un patrón específico y no logran generalizar más allá. Notablemente, esta limitación también se observa en los modelos de lenguaje de última generación. Estos hallazgos sugieren que los modelos de lenguaje adquieren razonamiento implícito a través del aprendizaje de atajos, lo que les permite un rendimiento sólido en tareas con patrones similares, pero carecen de generalización.
Los avances recientes en la generación de texto a imagen se han basado principalmente en conjuntos de datos extensos y arquitecturas con un gran número de parámetros. Estos requisitos limitan severamente la accesibilidad para investigadores y profesionales que carecen de recursos computacionales sustanciales. En este artículo, presentamos \model, un paradigma de entrenamiento eficiente para modelos de generación de imágenes que utiliza la destilación de conocimiento (KD, por sus siglas en inglés) y la Optimización Directa de Preferencias (DPO). Inspirándonos en el éxito de las técnicas de KD de datos ampliamente adoptadas en Modelos de Lenguaje Multimodales de Gran Escala (MLLMs), LightGen destila conocimiento de modelos de texto a imagen de última generación (SOTA) en una arquitectura Autoregresiva Enmascarada (MAR) compacta con solo 0.7 mil millones de parámetros. Utilizando un conjunto de datos sintético compacto de solo 2 millones de imágenes de alta calidad generadas a partir de variados textos descriptivos, demostramos que la diversidad de datos supera significativamente el volumen de datos en la determinación del rendimiento del modelo. Esta estrategia reduce drásticamente las demandas computacionales y disminuye el tiempo de pre-entrenamiento de potencialmente miles de días-GPU a apenas 88 días-GPU. Además, para abordar las limitaciones inherentes de los datos sintéticos, particularmente los detalles de alta frecuencia deficientes y las inexactitudes espaciales, integramos la técnica DPO que refina la fidelidad de la imagen y la precisión posicional. Experimentos exhaustivos confirman que LightGen logra una calidad de generación de imágenes comparable a los modelos SOTA, mientras reduce significativamente los recursos computacionales y amplía la accesibilidad en entornos con recursos limitados. El código está disponible en https://github.com/XianfengWu01/LightGen.
Los recientes avances en los modelos de comprensión multimodal unificada y generación visual (o generación multimodal) se han visto obstaculizados por su complejidad computacional cuadrática y su dependencia de datos de entrenamiento a gran escala. Presentamos OmniMamba, el primer modelo de generación multimodal basado en una arquitectura lineal que genera tanto texto como imágenes a través de un paradigma unificado de predicción del siguiente token. El modelo aprovecha al máximo la alta eficiencia computacional y de memoria de Mamba-2, extendiendo sus capacidades desde la generación de texto hasta la generación multimodal. Para abordar la ineficiencia de datos de los modelos unificados existentes, proponemos dos innovaciones clave: (1) vocabularios desacoplados para guiar la generación específica de cada modalidad, y (2) LoRA específico de tareas para una adaptación eficiente en parámetros. Además, introducimos una estrategia de entrenamiento en dos etapas desacopladas para mitigar el desequilibrio de datos entre las dos tareas. Equipado con estas técnicas, OmniMamba logra un rendimiento competitivo con JanusFlow mientras supera a Show-o en diversos benchmarks, a pesar de haber sido entrenado con solo 2 millones de pares de imagen-texto, lo que es 1,000 veces menos que Show-o. Cabe destacar que OmniMamba sobresale con una eficiencia de inferencia excepcional, logrando una aceleración de hasta 119.2 veces y una reducción del 63% en la memoria de GPU para la generación de secuencias largas en comparación con los modelos basados en Transformer. El código y los modelos están disponibles en https://github.com/hustvl/OmniMamba.
Los recuperadores que siguen instrucciones han sido ampliamente adoptados junto con los LLMs en aplicaciones del mundo real, pero se ha investigado poco sobre los riesgos de seguridad relacionados con sus capacidades de búsqueda cada vez mayores. Estudiamos empíricamente la capacidad de los recuperadores para satisfacer consultas maliciosas, tanto cuando se usan directamente como cuando se utilizan en una configuración basada en generación aumentada por recuperación. Concretamente, investigamos seis recuperadores líderes, incluyendo NV-Embed y LLM2Vec, y encontramos que, ante solicitudes maliciosas, la mayoría de los recuperadores pueden (para >50% de las consultas) seleccionar pasajes relevantes y dañinos. Por ejemplo, LLM2Vec selecciona correctamente pasajes para el 61.35% de nuestras consultas maliciosas. Además, descubrimos un riesgo emergente con los recuperadores que siguen instrucciones, donde información altamente relevante y dañina puede ser resaltada al explotar sus capacidades de seguimiento de instrucciones. Finalmente, demostramos que incluso LLMs alineados con la seguridad, como Llama3, pueden satisfacer solicitudes maliciosas cuando se les proporcionan pasajes recuperados dañinos en contexto. En resumen, nuestros hallazgos subrayan los riesgos de uso malicioso asociados con el aumento de la capacidad de los recuperadores.
La localización de código—identificar con precisión dónde en una base de código se deben realizar cambios—es una tarea fundamental pero desafiante en el mantenimiento de software. Los enfoques existentes tienen dificultades para navegar eficientemente bases de código complejas al identificar secciones de código relevantes. El desafío radica en conectar descripciones de problemas en lenguaje natural con los elementos de código apropiados, lo que a menudo requiere razonamiento a través de estructuras jerárquicas y múltiples dependencias. Presentamos LocAgent, un marco que aborda la localización de código mediante representaciones basadas en grafos. Al analizar bases de código en grafos dirigidos heterogéneos, LocAgent crea una representación ligera que captura las estructuras del código (archivos, clases, funciones) y sus dependencias (importaciones, invocaciones, herencia), permitiendo que los agentes de LLM busquen y localicen entidades relevantes de manera efectiva a través de un potente razonamiento multi-salto. Los resultados experimentales en benchmarks del mundo real demuestran que nuestro enfoque mejora significativamente la precisión en la localización de código. En particular, nuestro método con el modelo ajustado Qwen-2.5-Coder-Instruct-32B logra resultados comparables a los modelos propietarios de vanguardia (SOTA) a un costo considerablemente reducido (aproximadamente un 86% menos), alcanzando hasta un 92.7% de precisión en la localización a nivel de archivo, mientras mejora las tasas de éxito en la resolución de problemas de GitHub en un 12% para múltiples intentos (Pass@10). Nuestro código está disponible en https://github.com/gersteinlab/LocAgent.
La interacción humana con el mundo externo implica fundamentalmente el intercambio de memoria personal, ya sea con otros individuos, sitios web, aplicaciones o, en el futuro, agentes de IA. Una parte significativa de esta interacción es redundante, ya que requiere que los usuarios proporcionen repetidamente la misma información en diferentes contextos. Las soluciones existentes, como las credenciales almacenadas en el navegador, los mecanismos de autocompletado y los sistemas de autenticación unificada, han intentado mitigar esta redundancia actuando como intermediarios que almacenan y recuperan datos de usuario comúnmente utilizados. El surgimiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) presenta una oportunidad para redefinir la gestión de la memoria a través de un paradigma nativo de IA: SECOND ME. SECOND ME actúa como un sistema inteligente y persistente de descarga de memoria que retiene, organiza y utiliza dinámicamente el conocimiento específico del usuario. Al servir como intermediario en las interacciones del usuario, puede generar respuestas conscientes del contexto de manera autónoma, prellenar información requerida y facilitar una comunicación fluida con sistemas externos, reduciendo significativamente la carga cognitiva y la fricción en la interacción. A diferencia de las soluciones tradicionales de almacenamiento de memoria, SECOND ME va más allá de la retención estática de datos al aprovechar la parametrización de memoria basada en LLMs. Esto permite una organización estructurada, razonamiento contextual y recuperación adaptativa de conocimiento, facilitando un enfoque más sistemático e inteligente para la gestión de la memoria. A medida que los agentes personales impulsados por IA, como SECOND ME, se integran cada vez más en los ecosistemas digitales, SECOND ME representa un paso crítico hacia la mejora de la interacción humano-mundo con sistemas de memoria persistentes, conscientes del contexto y autooptimizables. Hemos publicado el sistema de implementación completamente localizable en GitHub: https://github.com/Mindverse/Second-Me.
Presentamos un novedoso marco de tokenización visual que incorpora una estructura demostrable similar al PCA en el espacio latente de tokens. Mientras que los tokenizadores visuales existentes se centran principalmente en optimizar la fidelidad de reconstrucción, a menudo descuidan las propiedades estructurales del espacio latente, un factor crítico tanto para la interpretabilidad como para las tareas posteriores. Nuestro método genera una secuencia causal de tokens 1D para imágenes, donde cada token sucesivo aporta información no superpuesta con una varianza explicada decreciente garantizada matemáticamente, análoga al análisis de componentes principales. Esta restricción estructural asegura que el tokenizador extraiga primero las características visuales más destacadas, con cada token subsiguiente añadiendo información complementaria pero decreciente. Además, identificamos y resolvimos un efecto de acoplamiento espectro-semántico que causa el entrelazamiento no deseado de contenido semántico de alto nivel y detalles espectrales de bajo nivel en los tokens, mediante el uso de un decodificador de difusión. Los experimentos demuestran que nuestro enfoque logra un rendimiento de reconstrucción de vanguardia y permite una mejor interpretabilidad alineada con el sistema visual humano. Además, los modelos auto-regresivos entrenados en nuestras secuencias de tokens alcanzan un rendimiento comparable a los métodos actuales más avanzados, mientras que requieren menos tokens para el entrenamiento y la inferencia.
A medida que los modelos fundacionales multimodales comienzan a implementarse experimentalmente en vehículos autónomos, una pregunta razonable que nos hacemos es cuán similares son estas respuestas a las de los humanos en ciertas situaciones de conducción, especialmente aquellas que están fuera de distribución. Para estudiar esto, creamos el conjunto de datos Robusto-1, que utiliza datos de video de cámaras de tablero de Perú, un país con uno de los conductores más agresivos del mundo, un alto índice de tráfico y una proporción elevada de objetos callejeros extraños en comparación con los comunes, que probablemente nunca se hayan visto durante el entrenamiento. En particular, para probar preliminarmente a nivel cognitivo qué tan bien se comparan los Modelos de Lenguaje Visual Fundacionales (VLMs) con los humanos en la conducción, nos alejamos de los cuadros delimitadores, mapas de segmentación, mapas de ocupación o estimación de trayectorias, y nos enfocamos en la Respuesta Visual a Preguntas (VQA) multimodal, comparando tanto a humanos como a máquinas mediante un método popular en neurociencia de sistemas conocido como Análisis de Similitud Representacional (RSA). Dependiendo del tipo de preguntas que hagamos y las respuestas que den estos sistemas, mostraremos en qué casos los VLMs y los humanos convergen o divergen, lo que nos permitirá explorar su alineación cognitiva. Encontramos que el grado de alineación varía significativamente según el tipo de preguntas que se hagan a cada tipo de sistema (humanos vs. VLMs), destacando una brecha en su alineación.
En este artículo, presentamos CineBrain, el primer conjunto de datos a gran escala que incluye registros simultáneos de EEG y fMRI durante la estimulación audiovisual dinámica. Reconociendo las fortalezas complementarias de la alta resolución temporal del EEG y la cobertura espacial profunda del fMRI, CineBrain proporciona aproximadamente seis horas de contenido narrativo de la popular serie de televisión The Big Bang Theory para cada uno de los seis participantes. Basándonos en este conjunto de datos único, proponemos CineSync, un marco innovador de decodificación multimodal que integra un Codificador de Fusión Multimodal con un Decodificador de Latentes Neuronales basado en difusión. Nuestro enfoque fusiona eficazmente las señales de EEG y fMRI, mejorando significativamente la calidad de la reconstrucción de estímulos audiovisuales complejos. Para facilitar una evaluación rigurosa, introducimos Cine-Benchmark, un protocolo de evaluación integral que valora las reconstrucciones en dimensiones semánticas y perceptivas. Los resultados experimentales demuestran que CineSync alcanza un rendimiento de reconstrucción de video de vanguardia y destacan nuestro éxito inicial en la combinación de fMRI y EEG para reconstruir tanto estímulos de video como de audio. Página del proyecto: https://jianxgao.github.io/CineBrain.
Los modelos grandes de visión y lenguaje (LVLMs, por sus siglas en inglés) han demostrado logros notables, aunque la generación de respuestas no factuales sigue siendo prevalente en tareas de búsqueda de hechos (QA). Los benchmarks multimodales actuales para la búsqueda de hechos se centran principalmente en comparar las salidas de los modelos con respuestas de referencia, ofreciendo información limitada sobre el rendimiento de los módulos específicos de cada modalidad. Para cerrar esta brecha, presentamos VisualSimpleQA, un benchmark multimodal de búsqueda de hechos con dos características clave. En primer lugar, permite una evaluación simplificada y desacoplada de los LVLMs en las modalidades visual y lingüística. En segundo lugar, incorpora criterios de dificultad bien definidos para guiar la anotación humana y facilita la extracción de un subconjunto desafiante, VisualSimpleQA-hard. Los experimentos con 15 LVLMs muestran que incluso modelos de última generación como GPT-4o alcanzan apenas un 60%+ de precisión en tareas multimodales de búsqueda de hechos en VisualSimpleQA y un 30%+ en VisualSimpleQA-hard. Además, la evaluación desacoplada en estos modelos resalta oportunidades significativas de mejora tanto en los módulos visuales como en los lingüísticos. El conjunto de datos está disponible en https://huggingface.co/datasets/WYLing/VisualSimpleQA.
Los puntos de referencia (benchmarks) son esenciales para una evaluación consistente y la reproducibilidad. La integración de la Inteligencia Artificial en la Ingeniería de Software (IA4SE) ha dado lugar a numerosos benchmarks para tareas como la generación de código y la corrección de errores. Sin embargo, este auge presenta desafíos: (1) conocimiento disperso de los benchmarks entre tareas, (2) dificultad para seleccionar benchmarks relevantes, (3) ausencia de un estándar uniforme para el desarrollo de benchmarks, y (4) limitaciones de los benchmarks existentes. En este artículo, revisamos 173 estudios e identificamos 204 benchmarks de IA4SE. Clasificamos estos benchmarks, analizamos sus limitaciones y exponemos brechas en las prácticas. Basándonos en nuestra revisión, creamos BenchScout, una herramienta de búsqueda semántica para encontrar benchmarks relevantes, utilizando agrupación automática de los contextos de los estudios asociados. Realizamos un estudio de usuario con 22 participantes para evaluar la usabilidad, efectividad e intuición de BenchScout, obteniendo puntuaciones promedio de 4.5, 4.0 y 4.1 sobre 5. Para avanzar en los estándares de benchmarking, proponemos BenchFrame, un método unificado para mejorar la calidad de los benchmarks. Como estudio de caso, aplicamos BenchFrame al benchmark HumanEval y abordamos sus principales limitaciones. Esto resultó en HumanEvalNext, que incluye (1) errores corregidos, (2) conversión de lenguaje mejorada, (3) cobertura de pruebas ampliada y (4) mayor dificultad. Luego, evaluamos diez modelos de lenguaje de código de última generación en HumanEval, HumanEvalPlus y HumanEvalNext. En HumanEvalNext, los modelos mostraron una reducción en la puntuación pass@1 del 31.22% y 19.94% en comparación con HumanEval y HumanEvalPlus, respectivamente.
Las neuronas en los modelos de lenguaje de gran escala a menudo exhiben polisemanticidad, codificando simultáneamente múltiples conceptos no relacionados y oscureciendo la interpretabilidad. En lugar de depender de métodos post-hoc, presentamos MoE-X, un modelo de lenguaje de Mezcla de Expertos (MoE, por sus siglas en inglés) diseñado para ser intrínsecamente interpretable. Nuestro enfoque se basa en la observación de que, en los modelos de lenguaje, las redes más amplias con activaciones dispersas tienen más probabilidades de capturar factores interpretables. Sin embargo, entrenar directamente redes dispersas tan grandes es computacionalmente prohibitivo. Las arquitecturas MoE ofrecen una alternativa escalable al activar solo un subconjunto de expertos para cualquier entrada dada, alineándose inherentemente con los objetivos de interpretabilidad. En MoE-X, establecemos esta conexión reformulando la capa MoE como un MLP disperso y grande equivalente. Este enfoque permite escalar eficientemente el tamaño oculto mientras se mantiene la dispersión. Para mejorar aún más la interpretabilidad, aplicamos activaciones dispersas dentro de cada experto y rediseñamos el mecanismo de enrutamiento para priorizar a los expertos con la mayor dispersión de activación. Estos diseños aseguran que solo las características más destacadas sean enrutadas y procesadas por los expertos. Evaluamos MoE-X en tareas de ajedrez y lenguaje natural, demostrando que logra un rendimiento comparable a los modelos densos mientras mejora significativamente la interpretabilidad. MoE-X alcanza una perplejidad mejor que GPT-2, con una interpretabilidad que supera incluso a los enfoques basados en autoencodificadores dispersos (SAE).
La generación conjunta de audio y video (AV) sigue siendo un desafío significativo en la inteligencia artificial generativa, principalmente debido a tres requisitos críticos: la calidad de las muestras generadas, la sincronización multimodal fluida y la coherencia temporal, con pistas de audio que coincidan con los datos visuales y viceversa, y una duración ilimitada del video. En este artículo, presentamos , una arquitectura novedosa basada en transformadores que aborda todos los desafíos clave de la generación AV. Exploramos tres módulos distintos de interacción entre modalidades, con nuestro módulo de fusión temporal ligero emergiendo como el enfoque más efectivo y computacionalmente eficiente para alinear las modalidades de audio y visuales. Nuestros resultados experimentales demuestran que supera a los modelos más avanzados existentes en tareas de generación multimodal AV. Nuestro código y puntos de control están disponibles en https://github.com/ErgastiAlex/R-FLAV.
A pesar de los recientes avances en la interpolación de movimiento basada en aprendizaje, se ha pasado por alto una limitación clave: la necesidad de conjuntos de datos específicos para cada personaje. En este trabajo, presentamos AnyMoLe, un método novedoso que aborda esta limitación al aprovechar modelos de difusión de video para generar fotogramas intermedios de movimiento para personajes arbitrarios sin necesidad de datos externos. Nuestro enfoque emplea un proceso de generación de fotogramas en dos etapas para mejorar la comprensión contextual. Además, para cerrar la brecha de dominio entre las animaciones de personajes del mundo real y las renderizadas, introducimos ICAdapt, una técnica de ajuste fino para modelos de difusión de video. Adicionalmente, proponemos una técnica de optimización de "imitación de movimiento-video", que permite la generación fluida de movimiento para personajes con estructuras articulares arbitrarias utilizando características 2D y 3D. AnyMoLe reduce significativamente la dependencia de datos mientras genera transiciones suaves y realistas, lo que lo hace aplicable a una amplia gama de tareas de interpolación de movimiento.
Estudios previos han establecido que los modelos de lenguaje manifiestan sesgos estereotipados. Las estrategias existentes para mitigar estos sesgos, como reentrenar un modelo con datos contrafactuales, proyección de representaciones y técnicas de prompting, a menudo no logran eliminar eficientemente los sesgos o alterar directamente las representaciones sesgadas internas de los modelos. Para abordar estos problemas, proponemos BiasEdit, un método eficiente de edición de modelos que elimina los sesgos estereotipados de los modelos de lenguaje mediante redes ligeras que actúan como editores para generar actualizaciones de parámetros. BiasEdit emplea una función de pérdida de desviación que guía a las redes editoras para realizar ediciones locales en parámetros parciales de un modelo de lenguaje con el fin de mitigar los sesgos, mientras preserva las capacidades de modelado del lenguaje durante la edición mediante una función de pérdida de retención. Los experimentos en StereoSet y Crows-Pairs demuestran la efectividad, eficiencia y robustez de BiasEdit en la eliminación de sesgos en comparación con líneas base tangenciales de mitigación de sesgos, y muestran un impacto mínimo o nulo en las capacidades generales de los modelos de lenguaje. Además, realizamos un rastreo de sesgos para explorar la presencia de sesgos en varios módulos y estudiamos los impactos de la edición de sesgos en diferentes componentes de los modelos de lenguaje.
Los seres humanos son, sin duda, los participantes más importantes en la visión por computadora, y la capacidad de detectar a cualquier individuo dada una descripción en lenguaje natural, una tarea que definimos como referirse a cualquier persona, tiene un valor práctico sustancial. Sin embargo, observamos que los modelos existentes generalmente no logran alcanzar una usabilidad en el mundo real, y los puntos de referencia actuales están limitados por su enfoque en referencias uno a uno, lo que obstaculiza el progreso en esta área. En este trabajo, revisitamos esta tarea desde tres perspectivas críticas: definición de la tarea, diseño del conjunto de datos y arquitectura del modelo. Primero, identificamos cinco aspectos de las entidades referenciables y tres características distintivas de esta tarea. A continuación, presentamos HumanRef, un nuevo conjunto de datos diseñado para abordar estos desafíos y reflejar mejor las aplicaciones del mundo real. Desde una perspectiva de diseño de modelos, integramos un modelo de lenguaje multimodal con un marco de detección de objetos, construyendo un modelo robusto de referencia llamado RexSeek. Los resultados experimentales revelan que los modelos de última generación, que funcionan bien en puntos de referencia comúnmente utilizados como RefCOCO/+/g, tienen dificultades con HumanRef debido a su incapacidad para detectar múltiples individuos. En contraste, RexSeek no solo sobresale en la referencia humana, sino que también generaliza eficazmente a la referencia de objetos comunes, lo que lo hace ampliamente aplicable en diversas tareas de percepción. El código está disponible en https://github.com/IDEA-Research/RexSeek.
Los modelos de difusión y Flow Matching generan muestras de alta calidad pero son lentos en la inferencia, y su destilación en modelos de pocos pasos a menudo conduce a inestabilidad y ajustes extensos. Para resolver estos compromisos, proponemos Inductive Moment Matching (IMM), una nueva clase de modelos generativos para muestreo en uno o pocos pasos con un procedimiento de entrenamiento de una sola etapa. A diferencia de la destilación, IMM no requiere inicialización mediante preentrenamiento ni optimización de dos redes; y a diferencia de los Consistency Models, IMM garantiza convergencia a nivel de distribución y se mantiene estable bajo diversos hiperparámetros y arquitecturas de modelos estándar. IMM supera a los modelos de difusión en ImageNet-256x256 con un FID de 1.99 utilizando solo 8 pasos de inferencia y logra un FID de 2 pasos de 1.98 en CIFAR-10, estableciendo un nuevo estado del arte para un modelo entrenado desde cero.
Estudios previos han encontrado que los modelos de recuperación basados en PLM (Modelos de Lenguaje Preentrenados) muestran una preferencia por el contenido generado por LLM (Modelos de Lenguaje de Gran Escala), asignando puntuaciones de relevancia más altas a estos documentos incluso cuando su calidad semántica es comparable a la de los escritos por humanos. Este fenómeno, conocido como sesgo de fuente, amenaza el desarrollo sostenible del ecosistema de acceso a la información. Sin embargo, las causas subyacentes del sesgo de fuente permanecen sin explorar. En este artículo, explicamos el proceso de recuperación de información mediante un gráfico causal y descubrimos que los recuperadores basados en PLM aprenden características de perplejidad para la estimación de relevancia, lo que provoca el sesgo de fuente al clasificar más alto los documentos con baja perplejidad. Un análisis teórico revela además que el fenómeno surge de la correlación positiva entre los gradientes de las funciones de pérdida en la tarea de modelado del lenguaje y la tarea de recuperación. Basándonos en este análisis, se propone un método de eliminación de sesgo en tiempo de inferencia inspirado en la causalidad, llamado Diagnóstico y Corrección Causal (CDC, por sus siglas en inglés). CDC primero diagnostica el efecto del sesgo de la perplejidad y luego separa este efecto de la puntuación de relevancia estimada en general. Los resultados experimentales en tres dominios demuestran la superior efectividad de CDC en la eliminación de sesgos, destacando la validez de nuestro marco explicativo propuesto. Los códigos fuente están disponibles en https://github.com/WhyDwelledOnAi/Perplexity-Trap.
Los modelos de difusión han logrado un éxito notable en diversos dominios. Sin embargo, su lenta velocidad de generación sigue siendo un desafío crítico. Los métodos de aceleración existentes, aunque buscan reducir los pasos, a menudo comprometen la calidad de las muestras, la controlabilidad o introducen complejidades en el entrenamiento. Por lo tanto, proponemos RayFlow, un marco de difusión novedoso que aborda estas limitaciones. A diferencia de métodos anteriores, RayFlow guía cada muestra a lo largo de una ruta única hacia una distribución objetivo específica de la instancia. Este método minimiza los pasos de muestreo mientras preserva la diversidad y estabilidad en la generación. Además, introducimos Time Sampler, una técnica de muestreo por importancia para mejorar la eficiencia del entrenamiento al enfocarse en los pasos de tiempo cruciales. Experimentos extensos demuestran la superioridad de RayFlow en la generación de imágenes de alta calidad con una velocidad mejorada, mayor control y eficiencia en el entrenamiento en comparación con las técnicas de aceleración existentes.
El campo de la traducción automática neuronal (NMT, por sus siglas en inglés) ha evolucionado con la llegada de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Gran parte del enfoque reciente en el procesamiento del lenguaje natural (NLP, por sus siglas en inglés) se ha centrado en modelar la traducción automática y muchos otros problemas utilizando un único decodificador Transformer preentrenado, mientras que las arquitecturas codificador-decodificador, que eran estándar en los modelos NMT anteriores, han recibido relativamente menos atención. En este artículo, exploramos modelos de traducción que son universales, eficientes y fáciles de optimizar, combinando el mundo de los LLMs con el mundo de la NMT. Aplicamos los LLMs a la codificación de la NMT y dejamos el decodificador de la NMT sin cambios. También desarrollamos métodos para adaptar los LLMs para que funcionen mejor con el decodificador de la NMT. Además, construimos un nuevo conjunto de datos que incluye múltiples tareas para evaluar cómo el sistema de traducción automática generaliza en diversas tareas. Las evaluaciones en los conjuntos de datos WMT y los nuestros muestran que los resultados utilizando nuestro método igualan o superan una variedad de líneas base en términos de calidad de traducción, pero logran aceleraciones en la inferencia de 2.4 a 6.5 veces y una reducción del 75% en la huella de memoria de la caché KV. También demuestra una fuerte generalización en una variedad de tareas relacionadas con la traducción.
Los avances recientes en la comprensión de videos largos suelen mitigar la redundancia visual mediante la poda de tokens visuales basada en la distribución de atención. Sin embargo, aunque los métodos existentes emplean la poda de tokens de baja respuesta a posteriori en las capas del decodificador, pasan por alto la correlación semántica a nivel de entrada entre los tokens visuales y las instrucciones (consulta). En este artículo, proponemos QuoTA, un módulo de entrenamiento libre a priori que extiende los modelos grandes de video-lenguaje (LVLM) existentes para la asignación de tokens visuales basada en la evaluación de importancia a nivel de fotogramas orientada a la consulta. La selección de tokens orientada a la consulta es crucial, ya que alinea el procesamiento visual con los requisitos específicos de la tarea, optimizando la utilización del presupuesto de tokens mientras preserva el contenido semánticamente relevante. Específicamente, (i) QuoTA asigna estratégicamente puntuaciones de importancia a nivel de fotogramas basadas en la relevancia de la consulta, permitiendo la asignación de tokens visuales de una sola vez antes de las interacciones multimodales en las capas del decodificador, (ii) desacoplamos la consulta mediante el razonamiento de Cadena de Pensamientos para facilitar una puntuación de importancia de fotogramas más precisa basada en LVLM, y (iii) QuoTA ofrece una funcionalidad plug-and-play que se extiende a los LVLM existentes. Los resultados experimentales extensivos demuestran que la implementación de QuoTA con LLaVA-Video-7B produce una mejora promedio del rendimiento del 3.2% en seis benchmarks (incluyendo Video-MME y MLVU) mientras opera dentro de un presupuesto idéntico de tokens visuales que la línea base. Los códigos están disponibles en https://github.com/MAC-AutoML/QuoTA.
Por simple que parezca, mover un objeto a otra ubicación dentro de una imagen es, de hecho, una tarea desafiante de edición de imágenes que requiere rearmonizar la iluminación, ajustar la pose según la perspectiva, rellenar con precisión las regiones ocluidas y garantizar una sincronización coherente de sombras y reflejos, todo ello manteniendo la identidad del objeto. En este artículo, presentamos ObjectMover, un modelo generativo capaz de realizar movimientos de objetos en escenas altamente complejas. Nuestra idea clave es modelar esta tarea como un problema de secuencia a secuencia y ajustar un modelo de generación de videos para aprovechar su conocimiento sobre la generación consistente de objetos a lo largo de los fotogramas. Demostramos que, con este enfoque, nuestro modelo es capaz de adaptarse a escenarios del mundo real complejos, manejando la armonización de iluminaciones extremas y el movimiento de efectos de objetos. Dado que no existen datos a gran escala para el movimiento de objetos, construimos una pipeline de generación de datos utilizando un motor de juegos moderno para sintetizar pares de datos de alta calidad. Además, proponemos una estrategia de aprendizaje multitarea que permite entrenar con datos de videos del mundo real para mejorar la generalización del modelo. A través de experimentos exhaustivos, demostramos que ObjectMover obtiene resultados sobresalientes y se adapta bien a escenarios del mundo real.
La Mezcla de Expertos (MoE, por sus siglas en inglés) es una arquitectura efectiva para escalar modelos de lenguaje grandes al aprovechar la activación dispersa de expertos, optimizando el equilibrio entre rendimiento y eficiencia. Sin embargo, bajo el paralelismo de expertos, MoE sufre ineficiencias en la inferencia debido a una asignación desequilibrada de tokens a expertos, donde algunos expertos están sobrecargados mientras que otros permanecen subutilizados. Este desequilibrio conduce a una mala utilización de recursos y a un aumento de la latencia, ya que el experto más cargado dicta el retraso general, un fenómeno que definimos como el \textit{Efecto Rezagado}. Para mitigar esto, proponemos Inferencia Consciente de la Capacidad, que incluye dos técnicas clave: (1) \textit{Descarte de Tokens Consciente de la Capacidad}, que descarta tokens sobrecargados para regular la latencia máxima de MoE, y (2) \textit{Redirección de Tokens Consciente de la Capacidad}, que reasigna tokens desbordados a expertos subutilizados, equilibrando la distribución de tokens. Estas técnicas optimizan colectivamente la utilización tanto de expertos con alta carga como con baja carga, lo que resulta en una canalización de inferencia de MoE más eficiente. Experimentos extensos demuestran la efectividad de nuestros métodos, mostrando mejoras significativas en la eficiencia de inferencia, por ejemplo, un aumento promedio del 0.2\% en el rendimiento y una aceleración de 1.94 veces en la inferencia en Mixtral-8x7B-Instruct.
Los modelos de recuperación densa se utilizan comúnmente en aplicaciones de Recuperación de Información (IR), como la Generación Aumentada por Recuperación (RAG). Dado que a menudo sirven como el primer paso en estos sistemas, su robustez es crucial para evitar fallos. En este trabajo, al reutilizar un conjunto de datos de extracción de relaciones (por ejemplo, Re-DocRED), diseñamos experimentos controlados para cuantificar el impacto de sesgos heurísticos, como favorecer documentos más cortos, en recuperadores como Dragon+ y Contriever. Nuestros hallazgos revelan vulnerabilidades significativas: los recuperadores a menudo dependen de patrones superficiales como priorizar en exceso los inicios de los documentos, documentos más cortos, entidades repetidas y coincidencias literales. Además, tienden a pasar por alto si el documento contiene la respuesta a la consulta, careciendo de una comprensión semántica profunda. Notablemente, cuando se combinan múltiples sesgos, los modelos exhiben una degradación catastrófica en el rendimiento, seleccionando el documento que contiene la respuesta en menos del 3% de los casos sobre un documento sesgado sin la respuesta. Además, demostramos que estos sesgos tienen consecuencias directas para aplicaciones posteriores como RAG, donde los documentos preferidos por el recuperador pueden engañar a los LLMs, resultando en una caída del 34% en el rendimiento en comparación con no proporcionar ningún documento.
La inteligencia es un rasgo crucial para que las especies encuentren soluciones dentro de un número limitado de intentos de prueba y error. Basándonos en esta idea, presentamos el Juego de Supervivencia como un marco para evaluar la inteligencia en función del número de intentos fallidos en un proceso de prueba y error. Menos fallos indican una mayor inteligencia. Cuando tanto la expectativa como la varianza del número de fallos son finitas, esto señala la capacidad de encontrar consistentemente soluciones a nuevos desafíos, lo que definimos como el Nivel Autónomo de inteligencia. Utilizando el Juego de Supervivencia, evaluamos exhaustivamente los sistemas de IA existentes. Nuestros resultados muestran que, aunque los sistemas de IA alcanzan el Nivel Autónomo en tareas simples, todavía están lejos de lograrlo en tareas más complejas, como la visión, la búsqueda, la recomendación y el lenguaje. Si bien escalar las tecnologías actuales de IA podría ayudar, esto tendría un costo astronómico. Las proyecciones sugieren que alcanzar el Nivel Autónomo para tareas generales requeriría 10^{26} parámetros. Para poner esto en perspectiva, cargar un modelo tan masivo requiere tantas GPUs H100 que su valor total es 10^{7} veces el valor de mercado de Apple Inc. Incluso con la Ley de Moore, soportar una escala de parámetros tan grande tomaría 70 años. Este costo asombroso resalta la complejidad de las tareas humanas y las insuficiencias de las tecnologías actuales de IA. Para investigar más a fondo este fenómeno, realizamos un análisis teórico del Juego de Supervivencia y sus resultados experimentales. Nuestros hallazgos sugieren que las tareas humanas poseen una propiedad de criticidad. Como resultado, el Nivel Autónomo requiere una comprensión profunda de los mecanismos subyacentes de la tarea. Sin embargo, los sistemas de IA actuales no comprenden completamente estos mecanismos y, en su lugar, dependen de una imitación superficial, lo que les dificulta alcanzar un nivel autónomo. Creemos que el Juego de Supervivencia no solo puede guiar el desarrollo futuro de la IA, sino también ofrecer profundas perspectivas sobre la inteligencia humana.
Las salidas alucinadas de los modelos de lenguaje representan riesgos en el ámbito médico, especialmente para audiencias no especializadas que toman decisiones relacionadas con la salud. Los métodos existentes de evaluación de factualidad, como los basados en implicación y en preguntas y respuestas (QA), enfrentan dificultades en la generación de resúmenes en lenguaje sencillo (PLS) debido al fenómeno de explicación elaborativa, que introduce contenido externo (por ejemplo, definiciones, antecedentes, ejemplos) ausente en el documento fuente para mejorar la comprensión. Para abordar esto, presentamos PlainQAFact, un marco entrenado en un conjunto de datos anotado por humanos y de grano fino, PlainFact, para evaluar la factualidad tanto de oraciones simplificadas del fuente como de aquellas con explicaciones elaborativas. PlainQAFact primero clasifica el tipo de factualidad y luego la evalúa utilizando un método de puntuación basado en QA aumentado con recuperación de información. Nuestro enfoque es ligero y computacionalmente eficiente. Los resultados empíricos muestran que las métricas de factualidad existentes no logran evaluar efectivamente la factualidad en PLS, especialmente en explicaciones elaborativas, mientras que PlainQAFact alcanza un rendimiento de vanguardia. Además, analizamos su efectividad en diversas fuentes de conocimiento externo, estrategias de extracción de respuestas, medidas de superposición y niveles de granularidad de documentos, refinando así su evaluación general de factualidad.
Las preocupaciones sobre la privacidad en torno al creciente número de cámaras están aumentando en la era digital actual. Aunque los métodos de anonimización existentes pueden ocultar la información de identidad, a menudo tienen dificultades para preservar la utilidad de las imágenes. En este trabajo, presentamos un método libre de entrenamiento para la anonimización de rostros que preserva atributos clave no relacionados con la identidad. Nuestro enfoque utiliza un modelo de difusión de texto a imagen preentrenado sin necesidad de optimización o entrenamiento. Comienza invirtiendo la imagen de entrada para recuperar su ruido inicial. Luego, el ruido se reduce mediante un proceso de difusión condicionado por la identidad, donde las incrustaciones de identidad modificadas aseguran que el rostro anonimizado sea distinto de la identidad original. Nuestro enfoque también admite la anonimización localizada, dando a los usuarios control sobre qué regiones faciales se anonimizan o se mantienen intactas. Evaluaciones exhaustivas frente a métodos de vanguardia muestran que nuestro enfoque sobresale en anonimización, preservación de atributos y calidad de imagen. Su flexibilidad, robustez y practicidad lo hacen adecuado para aplicaciones del mundo real. El código y los datos se pueden encontrar en https://github.com/hanweikung/nullface.
En los últimos años, hemos presenciado avances significativos en los modelos base a través del preentrenamiento generativo, aunque la innovación algorítmica en este ámbito se ha estancado principalmente en torno a modelos autorregresivos para señales discretas y modelos de difusión para señales continuas. Este estancamiento crea un cuello de botella que nos impide desbloquear por completo el potencial de los datos multimodales ricos, lo que a su vez limita el progreso en la inteligencia multimodal. Argumentamos que una perspectiva centrada en la inferencia, que prioriza la eficiencia de escalado durante el tiempo de inferencia en términos de longitud de secuencia y pasos de refinamiento, puede inspirar nuevos algoritmos de preentrenamiento generativo. Utilizando el Emparejamiento de Momentos Inductivo (IMM, por sus siglas en inglés) como ejemplo concreto, demostramos cómo abordar las limitaciones en el proceso de inferencia de los modelos de difusión mediante modificaciones específicas da lugar a un algoritmo estable de una sola etapa que logra una calidad de muestreo superior con una eficiencia de inferencia más de un orden de magnitud mayor.
Los modelos Visión-Lenguaje-Acción (VLA, por sus siglas en inglés) tienen como objetivo predecir acciones robóticas basadas en observaciones visuales e instrucciones de lenguaje. Los enfoques existentes requieren ajustar modelos preentrenados de visión y lenguaje (VLMs), ya que las características visuales y lingüísticas se introducen de forma independiente en las políticas posteriores, lo que degrada las alineaciones semánticas preentrenadas. Proponemos OTTER, una arquitectura VLA novedosa que aprovecha estas alineaciones existentes mediante la extracción explícita de características visuales conscientes del texto. En lugar de procesar todas las características visuales, OTTER extrae y pasa selectivamente solo las características visuales relevantes para la tarea que están alineadas semánticamente con la instrucción de lenguaje al transformador de políticas. Esto permite que OTTER mantenga congelados los codificadores de visión y lenguaje preentrenados. De esta manera, OTTER preserva y utiliza la rica comprensión semántica aprendida durante el preentrenamiento a gran escala, lo que permite capacidades sólidas de generalización en escenarios de cero disparos. En experimentos de simulación y del mundo real, OTTER supera significativamente a los modelos VLA existentes, demostrando una fuerte generalización de cero disparos a objetos y entornos novedosos. Video, código, puntos de control y conjunto de datos: https://ottervla.github.io/.