Artículos de investigación en IA seleccionados diariamente con traducciones
La optimización en tiempo de inferencia escala el cómputo para derivar pasos de razonamiento deliberado que permitan un rendimiento efectivo. Si bien las estrategias basadas en búsqueda anteriores abordan la miopía de la generación autoregresiva, el vasto espacio de búsqueda conduce a una exploración excesiva y una explotación insuficiente. Para lograr un equilibrio eficiente y derivar el paso óptimo, enmarcamos la estrategia de decodificación como muestreo con previsión, aprovechando pasos futuros simulados para obtener una estimación globalmente óptima del paso. Sobre esta base, proponemos una novedosa estrategia de decodificación, denominada phi-Decodificación. Para proporcionar una estimación precisa y expresiva del valor del paso, phi-Decodificación aproxima dos distribuciones mediante previsión y agrupamiento. Al muestrear la distribución conjunta, se pueden seleccionar los pasos óptimos para su explotación. Para apoyar la asignación adaptativa de cómputo, proponemos estrategias de poda en anchura y en profundidad, ofreciendo una solución ligera para lograr eficiencia en la inferencia. Experimentos extensos en siete benchmarks muestran que phi-Decodificación supera a las líneas base fuertes tanto en rendimiento como en eficiencia. Análisis adicionales demuestran su generalización en varios LLM y su escalabilidad en un amplio rango de presupuestos de cómputo. El código se publicará en https://github.com/xufangzhi/phi-Decoding, y el paquete de PyPI de código abierto estará disponible pronto.
A pesar del reciente éxito de los modelos de contraste imagen-texto como CLIP y SigLIP, estos modelos suelen tener dificultades con tareas centradas en la visión que requieren una comprensión de imágenes de alta fidelidad, como el conteo, la estimación de profundidad y el reconocimiento de objetos de gran detalle. Estos modelos, al realizar una alineación del lenguaje, tienden a priorizar la semántica de alto nivel sobre la comprensión visual, debilitando su entendimiento de las imágenes. Por otro lado, los modelos centrados en la visión son excelentes para procesar información visual, pero tienen dificultades para comprender el lenguaje, lo que limita su flexibilidad para tareas impulsadas por el lenguaje. En este trabajo, presentamos TULIP, un reemplazo de código abierto y directo para los modelos existentes similares a CLIP. Nuestro método aprovecha la ampliación de datos generativa, el aprendizaje de contraste mejorado imagen-imagen y texto-texto, y la regularización de reconstrucción de imágenes/textos para aprender características visuales detalladas mientras se preserva la alineación semántica global. Nuestro enfoque, que escala a más de 1B parámetros, supera a los modelos de última generación (SOTA) existentes en múltiples benchmarks, estableciendo un nuevo rendimiento SOTA en zero-shot en ImageNet-1K, logrando una mejora de hasta 2 veces sobre SigLIP en RxRx1 en pruebas lineales para clasificación con pocos ejemplos, y mejorando los modelos de visión-lenguaje, alcanzando puntuaciones más de 3 veces superiores a SigLIP en MMVP. Nuestro código y puntos de control están disponibles en https://tulip-berkeley.github.io.
Las mallas triangulares desempeñan un papel crucial en las aplicaciones 3D para la manipulación y renderización eficientes. Si bien los métodos auto-regresivos generan mallas estructuradas al predecir tokens discretos de vértices, a menudo se ven limitados por recuentos de caras reducidos e incompletitud de las mallas. Para abordar estos desafíos, proponemos DeepMesh, un marco que optimiza la generación de mallas mediante dos innovaciones clave: (1) una estrategia de pre-entrenamiento eficiente que incorpora un novedoso algoritmo de tokenización, junto con mejoras en la curación y procesamiento de datos, y (2) la introducción del Aprendizaje por Refuerzo (RL) en la generación de mallas 3D para lograr la alineación con las preferencias humanas mediante la Optimización Directa de Preferencias (DPO). Diseñamos un estándar de puntuación que combina la evaluación humana con métricas 3D para recopilar pares de preferencias para DPO, asegurando tanto el atractivo visual como la precisión geométrica. Condicionado en nubes de puntos e imágenes, DeepMesh genera mallas con detalles intrincados y topología precisa, superando a los métodos más avanzados tanto en precisión como en calidad. Página del proyecto: https://zhaorw02.github.io/DeepMesh/
Los modelos base entrenados con grandes volúmenes de datos han demostrado capacidades notables de razonamiento y generación en los dominios de texto, imágenes, audio y video. Nuestro objetivo en Roblox es construir un modelo base de este tipo para la inteligencia 3D, un modelo que pueda apoyar a los desarrolladores en la producción de todos los aspectos de una experiencia en Roblox, desde la generación de objetos y escenas 3D hasta el rigging de personajes para animación y la creación de scripts programáticos que describan comportamientos de objetos. Discutimos tres requisitos clave de diseño para dicho modelo base 3D y luego presentamos nuestro primer paso hacia la construcción de dicho modelo. Esperamos que las formas geométricas 3D sean un tipo de datos central y describimos nuestra solución para un tokenizador de formas 3D. Mostramos cómo nuestro esquema de tokenización puede utilizarse en aplicaciones para la generación de texto a forma, forma a texto y texto a escena. Demostramos cómo estas aplicaciones pueden colaborar con los modelos de lenguaje grandes (LLMs) existentes para realizar análisis y razonamiento de escenas. Concluimos con una discusión que describe nuestro camino hacia la construcción de un modelo base completamente unificado para la inteligencia 3D.
La construcción del Grafo de Conocimiento Generalizado (GKG, por sus siglas en inglés), que incluye el grafo de conocimiento, el grafo de conocimiento de eventos y el grafo de conocimiento de sentido común, es fundamental para diversas tareas de procesamiento del lenguaje natural. Los estudios actuales suelen construir estos tipos de grafos por separado, pasando por alto perspectivas holísticas y una posible unificación que podría ser beneficiosa en términos de recursos computacionales y usos. Sin embargo, un desafío clave en el desarrollo de un marco unificado para el GKG son los obstáculos que surgen de las diferencias específicas de cada tarea. En este estudio, proponemos un marco unificado para la construcción de grafos de conocimiento generalizados con el fin de abordar este desafío. En primer lugar, recopilamos datos de 15 subtareas en 29 conjuntos de datos pertenecientes a los tres tipos de grafos, categorizándolos en datos in-sample, contra-tarea y fuera de distribución (OOD, por sus siglas en inglés). Luego, proponemos un marco de ajuste fino de aprendizaje curricular en tres etapas, inyectando iterativamente conocimiento de los tres tipos de grafos en los Modelos de Lenguaje de Gran Escala. Experimentos exhaustivos demuestran que nuestro modelo propuesto mejora la construcción de los tres tipos de grafos en datos in-domain, OOD y contra-tarea.
La calidad temporal es un aspecto crítico en la generación de videos, ya que garantiza movimientos consistentes y dinámicas realistas entre los fotogramas. Sin embargo, lograr una alta coherencia y diversidad temporal sigue siendo un desafío. En este trabajo, exploramos por primera vez la ampliación temporal en la generación de videos e introducimos FluxFlow para una investigación inicial, una estrategia diseñada para mejorar la calidad temporal. Operando a nivel de datos, FluxFlow aplica perturbaciones temporales controladas sin requerir modificaciones arquitectónicas. Experimentos exhaustivos en los benchmarks UCF-101 y VBench demuestran que FluxFlow mejora significativamente la coherencia y diversidad temporal en varios modelos de generación de videos, incluyendo arquitecturas basadas en U-Net, DiT y AR, mientras preserva la fidelidad espacial. Estos hallazgos resaltan el potencial de la ampliación temporal como un enfoque simple pero efectivo para avanzar en la calidad de la generación de videos.
Los rápidos avances en la tecnología generativa han surgido como una espada de doble filo. Si bien ofrecen herramientas poderosas que mejoran la conveniencia, también plantean preocupaciones sociales significativas. Como defensores, los métodos actuales de detección de imágenes sintéticas a menudo carecen de interpretabilidad textual a nivel de artefactos y se centran excesivamente en la detección de manipulación de imágenes, y los conjuntos de datos actuales suelen sufrir de generadores obsoletos y una falta de anotaciones detalladas. En este artículo, presentamos SynthScars, un conjunto de datos de alta calidad y diverso que consta de 12,236 imágenes completamente sintéticas con anotaciones de expertos humanos. Incluye 4 tipos distintos de contenido de imagen, 3 categorías de artefactos y anotaciones detalladas que cubren segmentación a nivel de píxel, explicaciones textuales detalladas y etiquetas de categoría de artefactos. Además, proponemos LEGION (LEarning to Ground and explain for Synthetic Image detectiON), un marco de análisis de falsificación de imágenes basado en un modelo de lenguaje multimodal (MLLM) que integra detección de artefactos, segmentación y explicación. Basándonos en esta capacidad, exploramos además LEGION como un controlador, integrándolo en tuberías de refinamiento de imágenes para guiar la generación de imágenes de mayor calidad y más realistas. Experimentos extensos muestran que LEGION supera a los métodos existentes en múltiples puntos de referencia, superando particularmente al segundo mejor experto tradicional en SynthScars por 3.31% en mIoU y 7.75% en puntuación F1. Además, las imágenes refinadas generadas bajo su guía exhiben una mayor alineación con las preferencias humanas. El código, el modelo y el conjunto de datos serán publicados.
Los Modelos de Lenguaje de Gran Escala (LLMs) han demostrado capacidades prometedoras para resolver tareas de razonamiento matemático, aprovechando los datos de Cadena de Pensamiento (CoT) como un componente vital para guiar la generación de respuestas. Los paradigmas actuales suelen generar CoT y respuestas directamente para un problema dado, divergiendo en cierta medida de las estrategias de resolución de problemas humanas. Los humanos a menudo resuelven problemas recordando casos análogos y aprovechando sus soluciones para razonar sobre la tarea actual. Inspirados por este proceso cognitivo, proponemos MetaLadder, un marco novedoso que incita explícitamente a los LLMs a recordar y reflexionar sobre meta-problemas, aquellos problemas estructural o semánticamente análogos, junto con sus soluciones CoT antes de abordar el problema objetivo. Además, introducimos un mecanismo de reformulación de problemas para mejorar la comprensión del modelo del problema objetivo mediante la regeneración de la pregunta original, lo que mejora aún más la precisión del razonamiento. Por lo tanto, el modelo puede lograr una transferencia de razonamiento a partir de problemas análogos, imitando la capacidad humana de "aprender de ejemplos" y de generalización. Experimentos extensos en benchmarks matemáticos demuestran que nuestro MetaLadder aumenta significativamente la precisión de resolución de problemas de los LLMs, superando ampliamente los métodos basados en CoT estándar (un aumento de precisión del 10.3\%) y otros métodos. Nuestro código y datos han sido publicados en https://github.com/LHL3341/MetaLadder.
El razonamiento visual es fundamental para la cognición humana, permitiendo a los individuos interpretar y comprender de manera abstracta su entorno. Aunque los Modelos de Lenguaje Multimodales (MLLMs) recientes han demostrado un rendimiento impresionante en tareas de lenguaje y visión-lenguaje, los puntos de referencia existentes miden principalmente habilidades basadas en el reconocimiento y evalúan de manera insuficiente las verdaderas capacidades de razonamiento visual. Para cerrar esta brecha crítica, presentamos VERIFY, un punto de referencia diseñado explícitamente para aislar y evaluar rigurosamente las capacidades de razonamiento visual de los MLLMs más avanzados. VERIFY obliga a los modelos a razonar principalmente a partir de información visual, proporcionando un contexto textual mínimo para reducir la dependencia del conocimiento específico del dominio y los sesgos lingüísticos. Cada problema está acompañado por una ruta de razonamiento anotada por humanos, lo que lo convierte en el primero en proporcionar una evaluación en profundidad de los procesos de toma de decisiones de los modelos. Además, proponemos nuevas métricas que evalúan la fidelidad del razonamiento visual más allá de la mera precisión, destacando desequilibrios críticos en los patrones de razonamiento de los modelos actuales. Nuestra evaluación integral de los principales MLLMs revela limitaciones significativas, subrayando la necesidad de un enfoque equilibrado y holístico tanto para la percepción como para el razonamiento. Para más detalles y pruebas, visite nuestra página del proyecto (https://verify-eqh.pages.dev/).
Los modelos de difusión han demostrado un rendimiento notable en la síntesis de imágenes, pero requieren recursos computacionales y de memoria extensos para el entrenamiento, ajuste fino e inferencia. Aunque las técnicas avanzadas de cuantización han logrado minimizar el uso de memoria para la inferencia, el entrenamiento y ajuste fino de estos modelos cuantizados aún requieren una gran cantidad de memoria, posiblemente debido a la des-cuantización para el cálculo preciso de gradientes y/o la retropropagación en algoritmos basados en gradientes. Sin embargo, el ajuste fino eficiente en memoria es particularmente deseable para aplicaciones como la personalización, que a menudo deben ejecutarse en dispositivos de borde como teléfonos móviles con datos privados. En este trabajo, abordamos este desafío cuantizando un modelo de difusión con personalización mediante Inversión Textual y aprovechando una optimización de orden cero en los tokens de personalización sin des-cuantización, de modo que no se requiere almacenamiento de gradientes y activaciones para la retropropagación, que consume una cantidad considerable de memoria. Dado que la estimación de gradientes utilizando optimización de orden cero es bastante ruidosa para una o pocas imágenes en la personalización, proponemos reducir el ruido del gradiente estimado proyectándolo en un subespacio construido con el historial pasado de los tokens, denominado Subespacio de Gradiente. Además, investigamos la influencia de la incrustación de texto en la generación de imágenes, lo que llevó a nuestra propuesta de muestreo de pasos de tiempo, denominado Muestreo Parcial Uniforme de Pasos de Tiempo, para muestrear con pasos de difusión efectivos. Nuestro método logra un rendimiento comparable a los métodos anteriores en puntuaciones de alineación de imagen y texto para personalizar Stable Diffusion con solo pasos hacia adelante, mientras reduce la demanda de memoria de entrenamiento hasta 8.2 veces.
La investigación actual sobre el paradigma Descomponer-Luego-Verificar para evaluar la factualidad de textos extensos generalmente trata la descomposición y la verificación de manera aislada, pasando por alto sus interacciones y posibles desalineaciones. Encontramos que las políticas de descomposición existentes, típicamente demostraciones diseñadas manualmente, no se alinean bien con los verificadores posteriores en términos de atomicidad —una métrica novedosa que cuantifica la densidad de información—, lo que conduce a resultados de verificación subóptimos. Formulamos la búsqueda de la política de descomposición óptima para una verificación óptima como un problema de optimización bilevel. Para aproximar una solución a este problema fuertemente NP-difícil, proponemos la descomposición dinámica, un marco de aprendizaje por refuerzo que aprovecha la retroalimentación del verificador para aprender una política que descompone dinámicamente las afirmaciones a la atomicidad preferida por el verificador. Los resultados experimentales muestran que la descomposición dinámica supera a las políticas de descomposición existentes, mejorando la confianza de verificación en 0.07 y la precisión en 0.12 (en una escala de 0 a 1) en promedio, considerando diferentes verificadores, conjuntos de datos y atomicidades de las afirmaciones de entrada.
Desarrollar agentes de IA para manipular autónomamente interfaces gráficas de usuario es una tarea desafiante y de larga duración. Los recientes avances en las leyes de escalamiento de datos nos inspiran a entrenar agentes de uso informático con un conjunto de instrucciones escalado, aunque el uso de clonación de comportamiento para entrenar agentes aún requiere una inmensa cantidad de trayectorias de alta calidad. Para satisfacer la necesidad de escalabilidad, diseñamos STEVE, una canalización de verificación paso a paso para el entrenamiento de agentes de uso informático. Primero, establecemos un gran conjunto de instrucciones para agentes de uso informático y recopilamos datos de trayectorias con algunos agentes subóptimos. GPT-4o se utiliza para verificar la corrección de cada paso en las trayectorias basándose en las pantallas antes y después de la ejecución de la acción, asignando a cada paso una etiqueta binaria. Finalmente, adoptamos la Optimización de Kahneman y Tversky para optimizar el agente a partir de las etiquetas binarias paso a paso. Experimentos extensos demuestran que nuestro agente supera el ajuste fino supervisado al aprovechar tanto las acciones positivas como las negativas dentro de una trayectoria. Además, STEVE nos permite entrenar un modelo de visión-lenguaje de 7B como agente de uso informático, logrando un rendimiento líder en el desafiante entorno de escritorio en vivo WinAgentArena con gran eficiencia y a un costo reducido. Código y datos: https://github.com/FanbinLu/STEVE.
Los agentes basados en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) necesitan realizar interacciones de múltiples turnos en tareas del mundo real. Sin embargo, los algoritmos existentes de aprendizaje por refuerzo (RL) para optimizar agentes LLM en múltiples turnos no logran realizar una asignación de crédito efectiva a lo largo de varios turnos mientras aprovechan las capacidades de generalización de los LLM, y sigue sin estar claro cómo desarrollar tales algoritmos. Para estudiar esto, primero presentamos un nuevo punto de referencia, ColBench, donde un agente LLM interactúa con un colaborador humano a lo largo de múltiples turnos para resolver tareas realistas en programación de backend y diseño de frontend. Basándonos en este punto de referencia, proponemos un nuevo algoritmo de RL, SWEET-RL (RL con Evaluación Paso a Paso a partir de información de entrenamiento), que utiliza un objetivo de optimización cuidadosamente diseñado para entrenar un modelo crítico con acceso a información adicional durante el entrenamiento. El crítico proporciona recompensas a nivel de paso para mejorar el modelo de política. Nuestros experimentos demuestran que SWEET-RL logra una mejora absoluta del 6% en las tasas de éxito y victoria en ColBench en comparación con otros algoritmos de RL de múltiples turnos de última generación, permitiendo que Llama-3.1-8B iguale o supere el rendimiento de GPT4-o en la creación colaborativa de contenido realista.
Los avances recientes en el preentrenamiento de LLM han destacado ventanas de contexto en constante expansión para procesar secuencias más largas. Sin embargo, nuestro estudio piloto revela que los modelos preentrenados con ventanas de contexto más cortas superan consistentemente a sus contrapartes de contexto largo bajo un presupuesto fijo de tokens. Este hallazgo nos motiva a explorar una estrategia óptima de programación de ventanas de contexto para equilibrar mejor la capacidad de contexto largo con la eficiencia del preentrenamiento. Con este fin, proponemos SkyLadder, un enfoque simple pero efectivo que implementa una transición de ventanas de contexto cortas a largas. SkyLadder preserva un rendimiento sólido en los puntos de referencia estándar, mientras iguala o supera los resultados de referencia en tareas de contexto largo. A través de extensos experimentos, preentrenamos modelos de 1B parámetros (hasta 32K de contexto) y modelos de 3B parámetros (8K de contexto) en 100B tokens, demostrando que SkyLadder produce ganancias consistentes de hasta un 3.7% en puntos de referencia comunes, mientras logra velocidades de entrenamiento hasta un 22% más rápidas en comparación con las líneas de base. El código está disponible en https://github.com/sail-sg/SkyLadder.
Presentamos MusicInfuser, un enfoque para generar videos de baile de alta calidad que están sincronizados con una pista musical específica. En lugar de intentar diseñar y entrenar un nuevo modelo multimodal de audio-video, demostramos cómo los modelos existentes de difusión de video pueden adaptarse para alinearse con entradas musicales mediante la introducción de una atención cruzada ligera entre música y video y un adaptador de bajo rango. A diferencia de trabajos previos que requieren datos de captura de movimiento, nuestro enfoque se ajusta únicamente en videos de baile. MusicInfuser logra una generación de video impulsada por música de alta calidad mientras preserva la flexibilidad y las capacidades generativas de los modelos subyacentes. Introducimos un marco de evaluación utilizando Video-LLMs para evaluar múltiples dimensiones de la calidad en la generación de baile. La página del proyecto y el código están disponibles en https://susunghong.github.io/MusicInfuser.
La reconstrucción descompuesta de escenas 3D, con formas completas y texturas detalladas de todos los objetos presentes, es intrigante para aplicaciones posteriores, pero sigue siendo un desafío, especialmente con vistas escasas como entrada. Enfoques recientes incorporan regularización semántica o geométrica para abordar este problema, pero sufren una degradación significativa en áreas subrestrictas y no logran recuperar regiones ocluidas. Argumentamos que la clave para resolver este problema radica en complementar la información faltante para estas áreas. Con este fin, proponemos DP-Recon, que emplea priores de difusión en forma de Muestreo de Destilación de Puntajes (SDS, por sus siglas en inglés) para optimizar la representación neuronal de cada objeto individual bajo nuevas vistas. Esto proporciona información adicional para las áreas subrestrictas, pero la incorporación directa del prior de difusión genera posibles conflictos entre la reconstrucción y la guía generativa. Por lo tanto, introducimos además un enfoque guiado por visibilidad para ajustar dinámicamente los pesos de pérdida SDS por píxel. Juntos, estos componentes mejoran tanto la recuperación de la geometría como de la apariencia, manteniéndose fieles a las imágenes de entrada. Experimentos extensivos en Replica y ScanNet++ demuestran que nuestro método supera significativamente a los métodos de última generación (SOTA). Notablemente, logra una mejor reconstrucción de objetos con 10 vistas que los métodos base con 100 vistas. Nuestro método permite una edición basada en texto sin problemas para la geometría y la apariencia a través de la optimización SDS y produce mallas de objetos descompuestas con mapas UV detallados que admiten la edición de efectos visuales (VFX) fotorrealistas. La página del proyecto está disponible en https://dp-recon.github.io/.
Los avances recientes en Modelos Multimodales de Gran Escala (LMMs) se centran principalmente en la comprensión de videos offline. En cambio, la comprensión de videos en streaming plantea grandes desafíos a los modelos actuales debido a sus características sensibles al tiempo, omni-modales e interactivas. En este trabajo, buscamos extender la comprensión de videos en streaming desde una nueva perspectiva y proponemos una tarea novedosa llamada Retroalimentación de Instrucciones Visuales, en la que los modelos deben ser conscientes de los contenidos visuales y aprender a extraer instrucciones de ellos. Por ejemplo, cuando los usuarios hacen gestos con las manos hacia los agentes, estos deben reconocer el gesto y comenzar conversaciones con información de bienvenida. Así, seguir instrucciones en la modalidad visual mejora significativamente las interacciones usuario-agente. Para facilitar la investigación, definimos siete subtareas clave altamente relevantes para la modalidad visual y recopilamos el conjunto de datos ViSpeak-Instruct para entrenamiento y el ViSpeak-Bench para evaluación. Además, proponemos el modelo ViSpeak, un LMM de última generación para la comprensión de videos en streaming con un rendimiento comparable a GPT-4o en varios benchmarks de comprensión de videos en streaming. Tras el ajuste fino en nuestro conjunto de datos ViSpeak-Instruct, ViSpeak adquiere una capacidad básica de retroalimentación de instrucciones visuales, sirviendo como una base sólida para futuras investigaciones.
La ingeniería automatizada de características desempeña un papel crucial en la mejora del rendimiento de los modelos predictivos para tareas de aprendizaje tabular. Los métodos tradicionales de ingeniería automatizada de características están limitados por su dependencia de transformaciones predefinidas dentro de espacios de búsqueda fijos y diseñados manualmente, a menudo descuidando el conocimiento del dominio. Los avances recientes utilizando Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han permitido la integración del conocimiento del dominio en el proceso de ingeniería de características. Sin embargo, los enfoques basados en LLMs existentes utilizan indicaciones directas o dependen únicamente de puntuaciones de validación para la selección de características, sin aprovechar los conocimientos de experimentos previos de descubrimiento de características ni establecer un razonamiento significativo entre la generación de características y el rendimiento basado en datos. Para abordar estos desafíos, proponemos LLM-FE, un marco novedoso que combina la búsqueda evolutiva con el conocimiento del dominio y las capacidades de razonamiento de los LLMs para descubrir automáticamente características efectivas en tareas de aprendizaje tabular. LLM-FE formula la ingeniería de características como un problema de búsqueda de programas, donde los LLMs proponen iterativamente nuevos programas de transformación de características, y la retroalimentación basada en datos guía el proceso de búsqueda. Nuestros resultados demuestran que LLM-FE supera consistentemente los métodos de referencia más avanzados, mejorando significativamente el rendimiento de los modelos de predicción tabular en diversos benchmarks de clasificación y regresión.
La generación de retratos parlantes de una sola imagen impulsada por audio desempeña un papel crucial en la realidad virtual, la creación de humanos digitales y la producción cinematográfica. Los enfoques existentes se clasifican generalmente en métodos basados en puntos clave y métodos basados en imágenes. Los métodos basados en puntos clave preservan eficazmente la identidad del personaje, pero tienen dificultades para capturar detalles faciales finos debido a la limitación de puntos fijos del Modelo Morfológico 3D. Además, las redes generativas tradicionales enfrentan desafíos para establecer una causalidad entre el audio y los puntos clave en conjuntos de datos limitados, lo que resulta en una baja diversidad de poses. En contraste, los enfoques basados en imágenes producen retratos de alta calidad con detalles diversos utilizando la red de difusión, pero incurren en distorsión de identidad y costos computacionales elevados. En este trabajo, proponemos KDTalker, el primer marco que combina puntos clave 3D implícitos no supervisados con un modelo de difusión espacio-temporal. Aprovechando los puntos clave 3D implícitos no supervisados, KDTalker adapta las densidades de información facial, permitiendo que el proceso de difusión modele diversas poses de la cabeza y capture detalles faciales finos de manera flexible. El mecanismo de atención espacio-temporal diseñado a medida garantiza una sincronización labial precisa, produciendo animaciones de alta calidad y temporalmente consistentes, al tiempo que mejora la eficiencia computacional. Los resultados experimentales demuestran que KDTalker alcanza un rendimiento de vanguardia en cuanto a precisión de sincronización labial, diversidad de poses de la cabeza y eficiencia de ejecución. Nuestros códigos están disponibles en https://github.com/chaolongy/KDTalker.
Presentamos ELTEX (Extracción Eficiente de Tokens para LLM), un marco orientado a dominios para generar datos sintéticos de entrenamiento de alta calidad en áreas especializadas. Si bien los Modelos de Lenguaje de Gran Escala (LLM) han demostrado capacidades generales impresionantes, su rendimiento en dominios especializados como la ciberseguridad sigue estando limitado por la escasez de datos de entrenamiento específicos del dominio. ELTEX aborda este desafío integrando sistemáticamente la extracción de indicadores de dominio explícitos con la generación dinámica de prompts para preservar el conocimiento crítico del dominio durante todo el proceso de generación. Demostramos la efectividad de ELTEX en el contexto de la detección de ciberataques relacionados con blockchain, donde ajustamos Gemma-2B utilizando diversas combinaciones de datos reales y generados por ELTEX. Nuestros resultados muestran que el modelo potenciado por ELTEX logra un rendimiento competitivo con GPT-4 tanto en métricas de clasificación estándar como en la calibración de incertidumbre, mientras requiere significativamente menos recursos computacionales. Publicamos un conjunto de datos sintéticos curados de textos de redes sociales para la detección de ciberataques en blockchain. Nuestro trabajo demuestra que la generación de datos sintéticos orientada a dominios puede cerrar eficazmente la brecha de rendimiento entre modelos eficientes en recursos y arquitecturas más grandes en dominios especializados.
Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades de razonamiento mejoradas, evolucionando desde el enfoque de Cadena de Pensamiento (CoT, Chain-of-Thought) hacia soluciones avanzadas y orientadas a productos, como OpenAI o1. Durante nuestra reimplementación de este modelo, observamos que en tareas multimodales que requieren entrada visual (por ejemplo, problemas de geometría), los Modelos de Lenguaje Multimodales (MLLMs, Multimodal LLMs) tienen dificultades para mantener el enfoque en la información visual. En otras palabras, los MLLMs experimentan una disminución gradual en la atención a la información visual a medida que avanza el razonamiento, lo que resulta en salidas que dependen excesivamente del texto. Para investigar esto, eliminamos las entradas de imágenes durante el razonamiento de cadena larga. Concretamente, truncamos el proceso de razonamiento a la mitad y luego lo completamos nuevamente sin la imagen de entrada. Observamos solo una caída de ~2% en la precisión en el subconjunto test-hard de MathVista, lo que revela que las salidas textuales del modelo dominan el proceso de razonamiento subsiguiente. Motivados por esto, proponemos el Acondicionamiento Visual de Acompañamiento (TVC, Take-along Visual Conditioning), una estrategia que traslada la entrada de imágenes a etapas críticas del razonamiento y comprime los tokens visuales redundantes mediante poda dinámica. Esta metodología ayuda al modelo a mantener la atención en los componentes visuales durante todo el razonamiento. Nuestro enfoque logra un rendimiento de vanguardia en promedio en cinco benchmarks de razonamiento matemático (+3.4% frente al anterior estado del arte), demostrando la efectividad del TVC en la mejora de los sistemas de razonamiento multimodal.
La resolución de problemas científicos implica sintetizar información mientras se aplica conocimiento experto. Presentamos CURIE, un punto de referencia para la Comprensión de Contextos Largos, Razonamiento y Extracción de Información científica, diseñado para medir el potencial de los Modelos de Lenguaje de Gran Escala (LLMs) en la resolución de problemas científicos y en la asistencia a científicos en flujos de trabajo realistas. Este punto de referencia introduce diez tareas desafiantes con un total de 580 pares de problemas y soluciones, curados por expertos en seis disciplinas: ciencia de materiales, física de la materia condensada, computación cuántica, análisis geoespacial, biodiversidad y proteínas, cubriendo tanto flujos de trabajo experimentales como teóricos en la ciencia. Evaluamos una variedad de LLMs cerrados y abiertos en las tareas de CURIE, que requieren experiencia en el dominio, comprensión de información contextual larga y razonamiento de múltiples pasos. Mientras que Gemini Flash 2.0 y Claude-3 muestran una comprensión consistentemente alta en todos los dominios, los populares GPT-4o y command-R+ fallan dramáticamente en las tareas de secuenciación de proteínas. Con el mejor rendimiento en un 32%, hay mucho espacio para la mejora en todos los modelos. Esperamos que las ideas obtenidas de CURIE puedan guiar el desarrollo futuro de los LLMs en las ciencias. El código y los datos de evaluación están disponibles en https://github.com/google/curie.
En entornos complejos de múltiples agentes, lograr un aprendizaje eficiente y comportamientos deseables representa un desafío significativo para los sistemas de Aprendizaje por Refuerzo Multiagente (MARL). Este trabajo explora el potencial de combinar MARL con intervenciones mediadas por Modelos de Lenguaje de Gran Escala (LLM) para guiar a los agentes hacia comportamientos más deseables. Específicamente, investigamos cómo los LLM pueden utilizarse para interpretar y facilitar intervenciones que moldeen las trayectorias de aprendizaje de múltiples agentes. Experimentamos con dos tipos de intervenciones, denominadas controladores: un Controlador de Lenguaje Natural (NL) y un Controlador Basado en Reglas (RB). El Controlador NL, que utiliza un LLM para simular intervenciones similares a las humanas, mostró un impacto más fuerte que el Controlador RB. Nuestros hallazgos indican que los agentes se benefician particularmente de intervenciones tempranas, lo que conduce a un entrenamiento más eficiente y un mayor rendimiento. Ambos tipos de intervenciones superan la línea base sin intervenciones, destacando el potencial de la guía mediada por LLM para acelerar el entrenamiento y mejorar el rendimiento de MARL en entornos desafiantes.