Artículos de investigación en IA seleccionados diariamente con traducciones
El aprendizaje por refuerzo multiagente (MARL) muestra un progreso significativo en la resolución de problemas multiagente cooperativos y competitivos en diversos entornos. Uno de los principales desafíos en MARL es la necesidad de predecir explícitamente el comportamiento de los agentes para lograr la cooperación. Para resolver este problema, proponemos el Transformador de Memoria Compartida Recurrente (SRMT), que extiende los transformadores de memoria a entornos multiagente mediante la agrupación y difusión global de las memorias de trabajo individuales, permitiendo a los agentes intercambiar información de forma implícita y coordinar sus acciones. Evaluamos SRMT en el problema de Búsqueda de Rutas Multiagente Parcialmente Observables en una tarea de navegación de Cuello de Botella de juguete que requiere que los agentes pasen por un pasillo estrecho y en un conjunto de tareas de referencia POGEMA. En la tarea de Cuello de Botella, SRMT supera consistentemente a una variedad de baselines de aprendizaje por refuerzo, especialmente bajo recompensas escasas, y generaliza de manera efectiva a pasillos más largos que los vistos durante el entrenamiento. En los mapas de POGEMA, incluidos Laberintos, Aleatorios y MovingAI, SRMT es competitivo con algoritmos recientes de MARL, híbridos y basados en planificación. Estos resultados sugieren que la incorporación de memoria recurrente compartida en las arquitecturas basadas en transformadores puede mejorar la coordinación en sistemas multiagente descentralizados. El código fuente para entrenamiento y evaluación está disponible en GitHub: https://github.com/Aloriosa/srmt.
La generación de video ha logrado avances significativos a través de técnicas de flujo rectificado, pero problemas como movimientos no suaves y desalineación entre videos e indicaciones persisten. En este trabajo, desarrollamos un proceso sistemático que aprovecha la retroalimentación humana para mitigar estos problemas y refinar el modelo de generación de video. Específicamente, comenzamos construyendo un conjunto de datos de preferencias humanas a gran escala centrado en modelos modernos de generación de video, incorporando anotaciones por pares en múltiples dimensiones. Luego introducimos VideoReward, un modelo de recompensa de video multidimensional, y examinamos cómo las anotaciones y diversas elecciones de diseño impactan en su eficacia recompensante. Desde una perspectiva unificada de aprendizaje por refuerzo con el objetivo de maximizar la recompensa con regularización KL, presentamos tres algoritmos de alineación para modelos basados en flujo mediante la extensión de los utilizados en modelos de difusión. Estos incluyen dos estrategias en tiempo de entrenamiento: optimización directa de preferencias para flujo (Flow-DPO) y regresión ponderada por recompensa para flujo (Flow-RWR), y una técnica en tiempo de inferencia, Flow-NRG, que aplica guía de recompensa directamente a videos ruidosos. Los resultados experimentales indican que VideoReward supera significativamente a los modelos de recompensa existentes, y Flow-DPO muestra un rendimiento superior en comparación con Flow-RWR y métodos estándar de ajuste fino supervisado. Además, Flow-NRG permite a los usuarios asignar pesos personalizados a múltiples objetivos durante la inferencia, satisfaciendo las necesidades de calidad de video personalizadas. Página del proyecto: https://gongyeliu.github.io/videoalign.
Presentamos Sigma, un eficiente modelo de lenguaje grande especializado para el dominio del sistema, potenciado por una arquitectura novedosa que incluye atención DiffQKV, y pre-entrenado en nuestros meticulosamente recopilados datos del dominio del sistema. La atención DiffQKV mejora significativamente la eficiencia de inferencia de Sigma al optimizar los componentes de Consulta (Q), Clave (K) y Valor (V) en el mecanismo de atención de manera diferencial, basándose en sus diversos impactos en el rendimiento del modelo e indicadores de eficiencia. Específicamente, (1) realizamos experimentos exhaustivos que demuestran la sensibilidad variable del modelo a la compresión de los componentes K y V, lo que lleva al desarrollo de KV comprimidos de manera diferencial, y (2) proponemos Q aumentada para expandir la dimensión de la cabeza Q, lo que mejora la capacidad de representación del modelo con impactos mínimos en la velocidad de inferencia. Rigurosos análisis teóricos y empíricos revelan que la atención DiffQKV mejora significativamente la eficiencia, logrando hasta un 33.36% de mejora en la velocidad de inferencia sobre la atención de consulta agrupada convencional (GQA) en escenarios de contexto largo. Pre-entrenamos Sigma en 6T tokens de diversas fuentes, incluidos 19.5B datos del dominio del sistema que recopilamos cuidadosamente y 1T tokens de datos sintetizados y reescritos. En dominios generales, Sigma logra un rendimiento comparable a otros modelos de vanguardia. En el dominio del sistema, presentamos el primer benchmark integral AIMicius, donde Sigma muestra un rendimiento notable en todas las tareas, superando significativamente a GPT-4 con una mejora absoluta de hasta el 52.5%.
El razonamiento de Cadena de Pensamiento (CoT) ha sido ampliamente explorado en modelos grandes para abordar tareas de comprensión complejas. Sin embargo, aún queda abierta la pregunta de si tales estrategias pueden aplicarse para verificar y reforzar escenarios de generación de imágenes. En este documento, proporcionamos la primera investigación exhaustiva del potencial del razonamiento CoT para mejorar la generación de imágenes autoregresivas. Nos centramos en tres técnicas: escalando la computación en tiempo de prueba para verificación, alineando las preferencias del modelo con la Optimización de Preferencia Directa (DPO) e integrando estas técnicas para efectos complementarios. Nuestros resultados demuestran que estos enfoques pueden adaptarse y combinarse de manera efectiva para mejorar significativamente el rendimiento de generación de imágenes. Además, dado el papel fundamental de los modelos de recompensa en nuestros hallazgos, proponemos el Modelo de Recompensa de Evaluación de Potencial (PARM) y PARM++, especializados para la generación de imágenes autoregresivas. PARM evalúa de manera adaptativa cada paso de generación a través de un enfoque de evaluación de potencial, fusionando las fortalezas de los modelos de recompensa existentes, y PARM++ introduce además un mecanismo de reflexión para autocorregir la imagen generada insatisfactoria. Utilizando nuestras estrategias de razonamiento investigadas, mejoramos un modelo base, Show-o, para lograr resultados superiores, con una mejora significativa del +24% en el benchmark GenEval, superando a Stable Diffusion 3 en un +15%. Esperamos que nuestro estudio proporcione ideas únicas y allane un nuevo camino para integrar el razonamiento CoT con la generación de imágenes autoregresivas. El código y los modelos se encuentran disponibles en https://github.com/ZiyuGuo99/Image-Generation-CoT
Los humanos adquieren conocimiento a través de tres etapas cognitivas: percibir información, comprender conocimiento y adaptar conocimiento para resolver problemas novedosos. Los videos sirven como un medio efectivo para este proceso de aprendizaje, facilitando una progresión a través de estas etapas cognitivas. Sin embargo, los benchmarks de videos existentes no logran evaluar sistemáticamente las capacidades de adquisición de conocimiento en Modelos Multimodales Grandes (LMMs). Para abordar esta brecha, presentamos Video-MMMU, un benchmark multimodal y multidisciplinario diseñado para evaluar la capacidad de los LMMs para adquirir y utilizar conocimiento de videos. Video-MMMU cuenta con una colección seleccionada de 300 videos de nivel experto y 900 preguntas anotadas por humanos en seis disciplinas, evaluando la adquisición de conocimiento a través de pares de preguntas-respuestas alineadas con las etapas: Percepción, Comprensión y Adaptación. Se propone una métrica de ganancia de conocimiento, Δconocimiento, que cuantifica la mejora en el rendimiento después de ver el video. La evaluación de los LMMs revela una disminución pronunciada en el rendimiento a medida que aumentan las demandas cognitivas y destaca una brecha significativa entre la adquisición de conocimiento humana y de modelos, subrayando la necesidad de métodos para mejorar la capacidad de los LMMs para aprender y adaptarse a partir de videos.
A pesar de los avances significativos en los grandes modelos multimodales de video (video-LMMs), lograr un anclaje temporal efectivo en videos de larga duración sigue siendo un desafío para los modelos existentes. Para abordar esta limitación, proponemos Optimización de Preferencias Temporales (TPO), un novedoso marco de post-entrenamiento diseñado para mejorar las capacidades de anclaje temporal de los video-LMMs a través del aprendizaje de preferencias. TPO adopta un enfoque de autoentrenamiento que permite a los modelos diferenciar entre respuestas temporales bien ancladas y menos precisas mediante el aprovechamiento de conjuntos de datos de preferencias curados en dos niveles de granularidad: anclaje temporal localizado, que se centra en segmentos de video específicos, y anclaje temporal integral, que captura dependencias temporales extendidas a lo largo de secuencias de video completas. Al optimizar en estos conjuntos de datos de preferencias, TPO mejora significativamente la comprensión temporal al tiempo que reduce la dependencia de datos anotados manualmente. Experimentos exhaustivos en tres bancos de pruebas de comprensión de video de larga duración - LongVideoBench, MLVU y Video-MME - demuestran la efectividad de TPO en dos modelos de video-LMMs de última generación. Destacadamente, LLaVA-Video-TPO se establece como el principal modelo de 7B en el banco de pruebas Video-MME, subrayando el potencial de TPO como una solución escalable y eficiente para avanzar en el razonamiento temporal en la comprensión de videos de larga duración. Página del proyecto: https://ruili33.github.io/tpo_website.
Con el rápido desarrollo de los modelos de difusión, los modelos de texto a imagen (T2I) han logrado avances significativos, mostrando impresionantes habilidades en el seguimiento de instrucciones y generación de imágenes. Modelos recientemente lanzados como FLUX.1 e Ideogram2.0, junto con otros como Dall-E3 y Stable Diffusion 3, han demostrado un rendimiento excepcional en diversas tareas complejas, planteando interrogantes sobre si los modelos T2I se están moviendo hacia una aplicabilidad de propósito general. Más allá de la generación de imágenes tradicional, estos modelos exhiben capacidades en una variedad de campos, incluyendo generación controlable, edición de imágenes, video, audio, 3D y generación de movimiento, así como tareas de visión por computadora como segmentación semántica y estimación de profundidad. Sin embargo, los marcos de evaluación actuales son insuficientes para evaluar exhaustivamente el rendimiento de estos modelos en dominios en expansión. Para evaluar a fondo estos modelos, desarrollamos IMAGINE-E y probamos seis modelos destacados: FLUX.1, Ideogram2.0, Midjourney, Dall-E3, Stable Diffusion 3 y Jimeng. Nuestra evaluación se divide en cinco dominios clave: generación de salidas estructuradas, realismo y consistencia física, generación en dominios específicos, generación de escenarios desafiantes y tareas de creación multiestilo. Esta evaluación exhaustiva destaca las fortalezas y limitaciones de cada modelo, especialmente el rendimiento sobresaliente de FLUX.1 e Ideogram2.0 en tareas estructuradas y en dominios específicos, subrayando las aplicaciones en expansión y el potencial de los modelos T2I como herramientas fundamentales de IA. Este estudio proporciona información valiosa sobre el estado actual y la trayectoria futura de los modelos T2I a medida que evolucionan hacia una usabilidad de propósito general. Los scripts de evaluación se publicarán en https://github.com/jylei16/Imagine-e.
Los modelos de lenguaje grandes (LLMs) han demostrado recientemente un éxito notable en el razonamiento matemático. A pesar del progreso en métodos como la inducción de cadenas de pensamiento y el muestreo de autoconsistencia, estos avances a menudo se centran en la corrección final sin garantizar que el proceso de razonamiento subyacente sea coherente y confiable. Este artículo presenta Step-KTO, un marco de entrenamiento que combina retroalimentación binaria a nivel de proceso y a nivel de resultado para guiar a los LLMs hacia trayectorias de razonamiento más confiables. Al proporcionar evaluaciones binarias tanto para los pasos intermedios de razonamiento como para la respuesta final, Step-KTO anima al modelo a seguir progresiones lógicas en lugar de depender de atajos superficiales. Nuestros experimentos en desafiantes bancos de pruebas matemáticas muestran que Step-KTO mejora significativamente tanto la precisión de la respuesta final como la calidad de los pasos intermedios de razonamiento. Por ejemplo, en el conjunto de datos MATH-500, Step-KTO logra una notable mejora en la precisión de Pass@1 sobre líneas de base sólidas. Estos resultados destacan la promesa de integrar retroalimentación de proceso paso a paso en el entrenamiento de LLMs, allanando el camino hacia capacidades de razonamiento más interpretables y confiables.
Los algoritmos recientes de rellenado de video integran la propagación de píxeles basada en flujo con generación basada en transformadores para aprovechar el flujo óptico en la restauración de texturas y objetos utilizando información de fotogramas vecinos, al mismo tiempo que completan regiones enmascaradas a través de Transformadores visuales. Sin embargo, estos enfoques a menudo se enfrentan a problemas de difuminación e inconsistencias temporales al tratar con máscaras grandes, resaltando la necesidad de modelos con capacidades generativas mejoradas. Recientemente, los modelos de difusión han surgido como una técnica prominente en la generación de imágenes y videos debido a su impresionante rendimiento. En este artículo, presentamos DiffuEraser, un modelo de rellenado de video basado en difusión estable, diseñado para completar regiones enmascaradas con más detalles y estructuras más coherentes. Incorporamos información previa para proporcionar inicialización y condicionamiento débil, lo que ayuda a mitigar artefactos ruidosos y suprimir alucinaciones. Además, para mejorar la consistencia temporal durante la inferencia de secuencias largas, ampliamos los campos receptivos temporales tanto del modelo previo como de DiffuEraser, y mejoramos aún más la consistencia aprovechando la propiedad de suavizado temporal de los Modelos de Difusión de Video. Los resultados experimentales demuestran que nuestro método propuesto supera a las técnicas de vanguardia tanto en la completitud del contenido como en la consistencia temporal, manteniendo una eficiencia aceptable.
Se han planteado preocupaciones sobre alucinaciones en Modelos de Lenguaje Grandes (LLMs) por parte de investigadores, sin embargo, su potencial en áreas donde la creatividad es vital, como el descubrimiento de fármacos, merece ser explorado. En este documento, proponemos la hipótesis de que las alucinaciones pueden mejorar los LLMs en el descubrimiento de fármacos. Para verificar esta hipótesis, utilizamos LLMs para describir la cadena SMILES de moléculas en lenguaje natural y luego incorporamos estas descripciones como parte de la indicación para abordar tareas específicas en el descubrimiento de fármacos. Evaluados en siete LLMs y cinco tareas de clasificación, nuestros hallazgos confirman la hipótesis: los LLMs pueden lograr un mejor rendimiento con texto que contiene alucinaciones. Notablemente, Llama-3.1-8B logra un aumento del 18.35% en ROC-AUC en comparación con la línea base sin alucinación. Además, las alucinaciones generadas por GPT-4o proporcionan las mejoras más consistentes entre los modelos. Además, realizamos análisis empíricos y un estudio de caso para investigar los factores clave que afectan al rendimiento y las razones subyacentes. Nuestra investigación arroja luz sobre el uso potencial de alucinaciones para LLMs y ofrece nuevas perspectivas para futuras investigaciones que aprovechen los LLMs en el descubrimiento de fármacos.
Los modelos de generación de texto a imagen pueden crear imágenes de alta calidad a partir de indicaciones de entrada. Sin embargo, tienen dificultades para mantener la generación consistente de requisitos que preserven la identidad en narrativas. Los enfoques existentes para este problema suelen requerir un extenso entrenamiento en grandes conjuntos de datos o modificaciones adicionales a las arquitecturas originales de los modelos. Esto limita su aplicabilidad en diferentes dominios y configuraciones de modelos de difusión diversos. En este documento, primero observamos la capacidad inherente de los modelos de lenguaje, denominada consistencia de contexto, para comprender la identidad a través del contexto con una sola indicación. Inspirados en la consistencia de contexto inherente, proponemos un método novedoso sin entrenamiento para la generación consistente de texto a imagen (T2I), denominado "Una-Indicación-Una-Historia" (1Indicación1Historia). Nuestro enfoque 1Indicación1Historia concatena todas las indicaciones en una sola entrada para los modelos de difusión T2I, preservando inicialmente las identidades de los personajes. Luego refinamos el proceso de generación utilizando dos técnicas novedosas: Reajuste de Valor Singular y Atención Cruzada que Preserva la Identidad, asegurando una mejor alineación con la descripción de entrada para cada fotograma. En nuestros experimentos, comparamos nuestro método con varios enfoques existentes de generación T2I consistentes para demostrar su efectividad a través de métricas cuantitativas y evaluaciones cualitativas. El código está disponible en https://github.com/byliutao/1Prompt1Story.
Los avances recientes en la generación de videos han tenido un impacto significativo en diversas aplicaciones posteriores, especialmente en la generación de videos que preservan la identidad (IPT2V). Sin embargo, los métodos existentes tienen dificultades con artefactos de "copiar y pegar" y problemas de baja similitud, principalmente debido a su dependencia de información de imagen facial a bajo nivel. Esta dependencia puede resultar en apariencias faciales rígidas y artefactos que reflejan detalles irrelevantes. Para abordar estos desafíos, proponemos EchoVideo, que emplea dos estrategias clave: (1) un Módulo de Fusión de Imagen-Texto de Identidad (IITF) que integra características semánticas de alto nivel del texto, capturando representaciones limpias de la identidad facial mientras descarta oclusiones, posturas y variaciones de iluminación para evitar la introducción de artefactos; (2) una estrategia de entrenamiento de dos etapas, incorporando un método estocástico en la segunda fase para utilizar de forma aleatoria información facial superficial. El objetivo es equilibrar las mejoras en fidelidad proporcionadas por características superficiales mientras se mitiga la dependencia excesiva de ellas. Esta estrategia anima al modelo a utilizar características de alto nivel durante el entrenamiento, fomentando en última instancia una representación más robusta de las identidades faciales. EchoVideo preserva eficazmente las identidades faciales y mantiene la integridad del cuerpo completo. Experimentos extensos demuestran que logra excelentes resultados en la generación de videos de alta calidad, controlabilidad y fidelidad.
Los métodos comunes para alinear modelos ya capaces con el comportamiento deseado dependen de la capacidad de los humanos para proporcionar supervisión. Sin embargo, los futuros modelos superhumanos superarán la capacidad de los humanos. Por lo tanto, los humanos solo podrán supervisar débilmente a los modelos superhumanos. Esta deficiencia esperada en la evaluación humana debilitaría la seguridad de los futuros sistemas de IA. La supervisión escalable y la generalización débil a fuerte son dos enfoques complementarios para abordar este problema. En este documento, intentamos combinar las fortalezas de estos dos enfoques para mejorar aún más la alineación. Específicamente, investigamos formas de mejorar la supervisión humana con un modelo preentrenado sólido y luego supervisamos el modelo sólido con una supervisión humana débil mejorada. Para lograr un progreso empírico iterativo, consideramos una analogía: ¿podemos utilizar un modelo sólido para mejorar la supervisión de un modelo débil y luego usarlo para supervisar el modelo sólido? Lo probamos empíricamente ajustando finamente un pequeño modelo débil en etiquetas de verdad con la ayuda adicional de un gran modelo sólido, y luego ajustando finamente el modelo sólido en etiquetas generadas por el modelo débil. Descubrimos que el debate puede ayudar a un modelo débil a extraer información confiable de un modelo sólido no confiable, lo que proporciona ventaja como contexto en muestras al entrenar un modelo débil. También mostramos que un conjunto de modelos débiles ayuda a explotar argumentos largos generados por los debatientes del modelo sólido y obtener una estimación de supervisión más robusta. Experimentos extensos en los benchmarks de NLP de OpenAI de generalización débil a fuerte muestran que el enfoque combinado conduce a una mejor alineación, lo que indica que el debate tiene el potencial de ayudar a la generalización de débil a fuerte.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) han demostrado avances significativos, ofreciendo un futuro prometedor para agentes incorporados. Los benchmarks existentes para evaluar MLLMs utilizan principalmente imágenes estáticas o videos, limitando las evaluaciones a escenarios no interactivos. Mientras tanto, los benchmarks de IA incorporada existentes son específicos de tareas y no lo suficientemente diversos, lo que no evalúa adecuadamente las capacidades incorporadas de los MLLMs. Para abordar esto, proponemos EmbodiedEval, un benchmark de evaluación integral e interactivo para MLLMs con tareas incorporadas. EmbodiedEval presenta 328 tareas distintas dentro de 125 escenas 3D variadas, cada una de las cuales está seleccionada y anotada rigurosamente. Cubre un amplio espectro de tareas de IA incorporada existentes con una diversidad significativamente mejorada, todo dentro de un marco de simulación y evaluación unificado adaptado para MLLMs. Las tareas se organizan en cinco categorías: navegación, interacción con objetos, interacción social, respuesta a preguntas de atributos y respuesta a preguntas espaciales para evaluar diferentes capacidades de los agentes. Evaluamos los MLLMs de última generación en EmbodiedEval y encontramos que tienen una deficiencia significativa en comparación con el nivel humano en tareas incorporadas. Nuestro análisis demuestra las limitaciones de los MLLMs existentes en capacidades incorporadas, proporcionando ideas para su desarrollo futuro. Ponemos a disposición todos los datos de evaluación y el marco de simulación en código abierto en https://github.com/thunlp/EmbodiedEval.
Este artículo sostiene que el aprendizaje automático (AA) pasa por alto en gran medida un aspecto importante de la inteligencia general: la robustez ante un futuro cualitativamente desconocido en un mundo abierto. Esta robustez se relaciona con la incertidumbre de Knight (IK) en economía, es decir, la incertidumbre que no se puede cuantificar, la cual se excluye de la consideración en las formulaciones clave del AA. Este artículo tiene como objetivo identificar este punto ciego, argumentar su importancia y catalizar la investigación para abordarlo, lo cual consideramos necesario para crear una IA verdaderamente robusta en un mundo abierto. Para ayudar a iluminar el punto ciego, contrastamos un área del AA, el aprendizaje por refuerzo (AR), con el proceso de evolución biológica. A pesar del asombroso progreso continuo, el AR todavía lucha en situaciones de mundo abierto, a menudo fallando ante situaciones imprevistas. Por ejemplo, la idea de transferir sin entrenamiento una política de conducción autónoma entrenada solo en los EE. UU. al Reino Unido actualmente parece sumamente ambiciosa. En un dramático contraste, la evolución biológica rutinariamente produce agentes que prosperan en un mundo abierto, a veces incluso en situaciones que son notablemente atípicas (por ejemplo, especies invasoras; o humanos, que realizan dicha conducción internacional sin entrenamiento). Curiosamente, la evolución logra tal robustez sin teoría explícita, formalismos o gradientes matemáticos. Exploramos las suposiciones subyacentes a los formalismos típicos del AR, mostrando cómo limitan la interacción del AR con las incógnitas características de un mundo complejo y en constante cambio. Además, identificamos mecanismos a través de los cuales los procesos evolutivos fomentan la robustez ante desafíos novedosos e impredecibles, y discutimos posibles vías para incorporarlos algorítmicamente. La conclusión es que la intrigante fragilidad restante del AA puede deberse a puntos ciegos en sus formalismos, y que se pueden obtener ganancias significativas al enfrentar directamente el desafío de la IK.
Los Modelos de Lenguaje Grandes (LLMs) requieren recursos computacionales significativos, por lo que es esencial mejorar sus capacidades sin tener que volver a entrenar desde cero. Un desafío clave en este ámbito es el olvido catastrófico (CF), que afecta el rendimiento durante el Pre-entrenamiento Continuo (CPT) y el Ajuste Fino Supervisado Continuo (CSFT). Proponemos Control LLM, un enfoque novedoso que aprovecha bloques de transformadores pre-entrenados y expandidos en paralelo, alineando sus estados ocultos a través de estrategias de interpolación. Este método preserva eficazmente el rendimiento en tareas existentes al integrar sin problemas nuevos conocimientos. Experimentos extensos demuestran la efectividad de Control LLM tanto en CPT como en CSFT. En Llama3.1-8B-Instruct, logra mejoras significativas en razonamiento matemático (+14.4% en Math-Hard) y rendimiento de codificación (+10% en MBPP-PLUS). En Llama3.1-8B, mejora las capacidades multilingües (+10.6% en C-Eval, +6.8% en CMMLU y +30.2% en CMMLU-0shot-CoT). Supera a los métodos existentes y logra el estado del arte entre los modelos de código abierto ajustados desde el mismo modelo base, utilizando considerablemente menos datos y recursos computacionales. Esencialmente, estos avances se realizan preservando sólidas capacidades originales, con una degradación mínima (<4.3% en MMLU) en comparación con >35% en modelos de matemáticas y codificación de código abierto. Este enfoque ha sido implementado con éxito en los productos de LinkedIn para buscadores de empleo y unidades de anuncios impulsados por GenAI. Para apoyar investigaciones adicionales, liberamos el código de entrenamiento y evaluación (https://github.com/linkedin/ControlLLM) junto con modelos entrenados en conjuntos de datos públicos (https://huggingface.co/ControlLLM) a la comunidad.
Las técnicas de Splatting Gaussiano en 3D han permitido el renderizado eficiente y fotorrealista de escenas estáticas. Trabajos recientes han ampliado estos enfoques para soportar la reconstrucción y seguimiento de superficies. Sin embargo, el seguimiento de superficies dinámicas con Gaussianas en 3D sigue siendo desafiante debido a cambios de topología complejos, como la aparición, desaparición o división de superficies. Para abordar estos desafíos, proponemos GSTAR, un método novedoso que logra un renderizado fotorrealista, una reconstrucción precisa de superficies y un seguimiento 3D confiable para escenas dinámicas generales con cambios de topología. Dadas capturas de múltiples vistas como entrada, GSTAR vincula Gaussianas a caras de malla para representar objetos dinámicos. Para superficies con topología consistente, GSTAR mantiene la topología de la malla y realiza el seguimiento de las mallas utilizando Gaussianas. En regiones donde cambia la topología, GSTAR desvincula de manera adaptativa las Gaussianas de la malla, lo que permite un registro preciso y la generación de nuevas superficies basadas en estas Gaussianas optimizadas. Además, introducimos un método de flujo de escena basado en superficies que proporciona una inicialización robusta para el seguimiento entre fotogramas. Los experimentos demuestran que nuestro método realiza un seguimiento y una reconstrucción efectivos de superficies dinámicas, lo que habilita una variedad de aplicaciones. Nuestra página de proyecto con la liberación del código está disponible en https://eth-ait.github.io/GSTAR/.