Artículos de investigación en IA seleccionados diariamente con traducciones
La tarea de resolución de problemas consiste en modificar una base de código para generar un parche que aborde un problema dado. Sin embargo, los benchmarks existentes, como SWE-bench, se centran casi exclusivamente en Python, lo que los hace insuficientes para evaluar Modelos de Lenguaje de Gran Escala (LLMs) en diversos ecosistemas de software. Para abordar esto, presentamos un benchmark multilingüe de resolución de problemas, llamado Multi-SWE-bench, que cubre Java, TypeScript, JavaScript, Go, Rust, C y C++. Incluye un total de 1,632 instancias de alta calidad, cuidadosamente anotadas a partir de 2,456 candidatos por 68 anotadores expertos, asegurando que el benchmark pueda proporcionar una evaluación precisa y confiable. Basándonos en Multi-SWE-bench, evaluamos una serie de modelos de última generación utilizando tres métodos representativos (Agentless, SWE-agent y OpenHands) y presentamos un análisis exhaustivo con conclusiones empíricas clave. Además, lanzamos una comunidad de código abierto llamada Multi-SWE-RL, destinada a construir conjuntos de datos de entrenamiento a gran escala para tareas de resolución de problemas mediante aprendizaje por refuerzo (RL). Como contribución inicial, publicamos un conjunto de 4,723 instancias bien estructuradas que abarcan siete lenguajes de programación, sentando una base sólida para la investigación en RL en este dominio. Más importante aún, liberamos toda nuestra pipeline de producción de datos, junto con tutoriales detallados, fomentando que la comunidad de código abierto contribuya y expanda continuamente el conjunto de datos. Visualizamos nuestro Multi-SWE-bench y la creciente comunidad Multi-SWE-RL como catalizadores para avanzar hacia el pleno potencial del RL, acercándonos un paso más al amanecer de la AGI.
El razonamiento matemático es un pilar fundamental de la inteligencia humana y un criterio clave para evaluar capacidades avanzadas en modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Sin embargo, la comunidad investigadora aún carece de un corpus abierto, de gran escala y de alta calidad, adaptado a las necesidades del preentrenamiento de LLMs centrados en matemáticas. Presentamos MegaMath, un conjunto de datos abierto curado a partir de diversas fuentes enfocadas en matemáticas, siguiendo estas prácticas: (1) Revisión de datos web: Reextrajimos documentos matemáticos de Common Crawl con optimizaciones HTML orientadas a matemáticas, filtrado basado en fasttext y deduplicación, todo ello para obtener datos de mayor calidad en Internet. (2) Recuperación de datos de código relacionados con matemáticas: Identificamos código de alta calidad relacionado con matemáticas a partir de un gran corpus de entrenamiento de código, Stack-V2, mejorando aún más la diversidad de los datos. (3) Exploración de datos sintéticos: Sintetizamos texto en formato de preguntas y respuestas (QA), código relacionado con matemáticas y bloques intercalados de texto y código a partir de datos web o de código. Al integrar estas estrategias y validar su efectividad mediante extensas ablaciones, MegaMath ofrece 371 mil millones de tokens, siendo el conjunto de datos abierto de preentrenamiento matemático con la mayor cantidad y la mejor calidad entre los existentes.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado un rendimiento considerable en diversas tareas de planificación agentiva. Sin embargo, los enfoques tradicionales de planificación de agentes adoptan una metodología de "riego por inundación" que inyecta indiscriminadamente trayectorias óptimas, retroalimentación externa y conocimiento del dominio en los modelos de agentes. Esta práctica pasa por alto el principio cognitivo humano fundamental de la autoconciencia situacional durante la toma de decisiones: la capacidad de evaluar dinámicamente las demandas situacionales y emplear estratégicamente los recursos durante el proceso de decisión. Proponemos la autoconciencia agentiva informada para abordar esta brecha, un paradigma novedoso que permite a los agentes basados en LLMs regular autónomamente la utilización del conocimiento. Específicamente, proponemos KnowSelf, un enfoque centrado en datos que aplica a los agentes una autoconciencia informada similar a la humana. Concretamente, diseñamos un criterio heurístico de juicio situacional para marcar tokens especiales en las trayectorias autoexploradas del agente, con el fin de recopilar datos de entrenamiento. Mediante un proceso de entrenamiento en dos etapas, el modelo del agente puede alternar entre diferentes situaciones generando tokens especiales específicos, logrando efectos de planificación óptimos con costos mínimos. Nuestros experimentos demuestran que KnowSelf puede superar a varias líneas base sólidas en diferentes tareas y modelos con un uso mínimo de conocimiento externo. El código está disponible en https://github.com/zjunlp/KnowSelf.
En este trabajo, presentamos VARGPT-v1.1, un modelo visual autorregresivo unificado avanzado que se basa en nuestro marco anterior, VARGPT. El modelo conserva el paradigma dual de predicción del siguiente token para la comprensión visual y generación de la siguiente escala para la síntesis de imágenes. Específicamente, VARGPT-v1.1 integra: (1) una nueva estrategia de entrenamiento que combina el ajuste iterativo de instrucciones visuales con el aprendizaje por refuerzo mediante Optimización Directa de Preferencias (DPO), (2) un corpus de entrenamiento ampliado que contiene 8.3 millones de pares de instrucciones visual-generativas, (3) un modelo de lenguaje mejorado utilizando Qwen2, (4) una resolución mejorada en la generación de imágenes, y (5) capacidades emergentes de edición de imágenes sin modificaciones arquitectónicas. Estos avances permiten que VARGPT-v1.1 alcance un rendimiento de vanguardia en tareas de comprensión multimodal y seguimiento de instrucciones de texto a imagen, demostrando mejoras significativas tanto en métricas de comprensión como de generación. Cabe destacar que, a través del ajuste de instrucciones visuales, el modelo adquiere funcionalidad de edición de imágenes mientras mantiene la consistencia arquitectónica con su predecesor, revelando el potencial para la comprensión, generación y edición visual unificadas. Nuestros hallazgos sugieren que los modelos visuales autorregresivos unificados bien diseñados pueden adoptar efectivamente estrategias de entrenamiento flexibles de los modelos de lenguaje grandes (LLMs), mostrando una escalabilidad prometedora. El código y los pesos del modelo están disponibles públicamente en https://github.com/VARGPT-family/VARGPT-v1.1.
Los Transformers son la piedra angular de los modelos de lenguaje modernos a gran escala, pero su complejidad computacional cuadrática limita la eficiencia en el procesamiento de secuencias largas. Los avances recientes en Mamba, un modelo de espacio de estados (SSM, por sus siglas en inglés) con complejidad lineal, ofrecen ganancias prometedoras en eficiencia, pero adolecen de inestabilidad en el aprendizaje contextual y la generalización multitarea. Este artículo propone TransMamba, un marco novedoso que unifica Transformer y Mamba a través de matrices de parámetros compartidas (por ejemplo, QKV y CBx), permitiendo así cambiar dinámicamente entre mecanismos de atención y SSM en diferentes longitudes de tokens y capas. Diseñamos el Conversor de Memoria para conectar Transformer y Mamba mediante la conversión de salidas de atención en estados compatibles con SSM, asegurando un flujo de información sin interrupciones en los TransPoints donde ocurre la transformación. También se explora a fondo la programación de TransPoints para obtener mejoras adicionales. Realizamos experimentos exhaustivos que demuestran que TransMamba logra una eficiencia de entrenamiento y un rendimiento superiores en comparación con los modelos base, y validamos la consistencia más profunda entre los paradigmas de Transformer y Mamba, ofreciendo una solución escalable para el modelado de secuencias de próxima generación.
En la interacción entre agentes y sus entornos, los agentes expanden sus capacidades mediante la planificación y ejecución de acciones. Sin embargo, los agentes basados en LLM enfrentan desafíos significativos cuando se despliegan en entornos novedosos o se les exige navegar espacios de acción no convencionales. Para capacitar a los agentes a explorar entornos de manera autónoma, optimizar flujos de trabajo y mejorar su comprensión de las acciones, proponemos SynWorld, un marco que permite a los agentes sintetizar escenarios posibles con invocación de acciones de múltiples pasos dentro del espacio de acción y realizar exploración mediante Búsqueda de Árbol de Monte Carlo (MCTS) para refinar efectivamente su conocimiento de acciones en el entorno actual. Nuestros experimentos demuestran que SynWorld es un enfoque efectivo y general para aprender conocimiento de acciones en nuevos entornos. El código está disponible en https://github.com/zjunlp/SynWorld.
Los agentes autónomos impulsados por modelos fundacionales han experimentado una adopción generalizada en diversas aplicaciones del mundo real. Sin embargo, siguen siendo altamente vulnerables a instrucciones maliciosas y ataques, lo que puede resultar en consecuencias graves como violaciones de privacidad y pérdidas financieras. Más críticamente, las salvaguardas existentes para los LLM no son aplicables debido a la naturaleza compleja y dinámica de los agentes. Para abordar estos desafíos, proponemos ShieldAgent, el primer agente de salvaguarda diseñado para hacer cumplir explícitamente las políticas de seguridad en la trayectoria de acciones de otros agentes protegidos mediante razonamiento lógico. Específicamente, ShieldAgent primero construye un modelo de política de seguridad extrayendo reglas verificables de documentos de políticas y estructurándolas en un conjunto de circuitos de reglas probabilísticas basadas en acciones. Dada la trayectoria de acciones del agente protegido, ShieldAgent recupera los circuitos de reglas relevantes y genera un plan de protección, aprovechando su biblioteca integral de herramientas y código ejecutable para verificación formal. Además, dada la falta de puntos de referencia para salvaguardas en agentes, presentamos ShieldAgent-Bench, un conjunto de datos con 3K pares de instrucciones de agentes y trayectorias de acciones relacionadas con la seguridad, recopilados mediante ataques de última generación en 6 entornos web y 7 categorías de riesgo. Los experimentos muestran que ShieldAgent alcanza el estado del arte en ShieldAgent-Bench y en tres puntos de referencia existentes, superando a los métodos anteriores en un 11.3% en promedio con una alta recuperación del 90.1%. Además, ShieldAgent reduce las consultas API en un 64.7% y el tiempo de inferencia en un 58.2%, demostrando su alta precisión y eficiencia en la protección de agentes.
Entrenar agentes de IA efectivos para interacciones de múltiples turnos requiere datos de alta calidad que capturen dinámicas realistas entre humanos y agentes, sin embargo, dichos datos son escasos y costosos de recolectar manualmente. Presentamos APIGen-MT, un marco de trabajo de dos fases que genera datos verificables y diversos para agentes de múltiples turnos. En la primera fase, nuestra pipeline agentiva produce planos detallados de tareas con acciones de referencia, aprovechando un comité de revisores basados en LLM y bucles de retroalimentación iterativos. Estos planos se transforman luego en trayectorias completas de interacción mediante la simulación de interacciones humano-agente. Entrenamos una familia de modelos —la serie xLAM-2-fc-r con tamaños que van desde 1B hasta 70B parámetros—. Nuestros modelos superan a modelos de vanguardia como GPT-4o y Claude 3.5 en los benchmarks tau-bench y BFCL, con los modelos más pequeños superando a sus contrapartes más grandes, especialmente en configuraciones de múltiples turnos, mientras mantienen una consistencia superior en múltiples pruebas. Experimentos exhaustivos demuestran que nuestro enfoque verificado de plano-a-detalles produce datos de entrenamiento de alta calidad, permitiendo el desarrollo de agentes más confiables, eficientes y capaces. Liberamos tanto los datos sintéticos recolectados como los modelos entrenados xLAM-2-fc-r para avanzar la investigación en agentes de IA. Los modelos están disponibles en HuggingFace en https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4 y el sitio web del proyecto es https://apigen-mt.github.io.
Los puntos de referencia existentes para MLLM enfrentan desafíos significativos al evaluar los MLLM Unificados (U-MLLM) debido a: 1) la falta de puntos de referencia estandarizados para tareas tradicionales, lo que lleva a comparaciones inconsistentes; 2) la ausencia de puntos de referencia para la generación de modalidades mixtas, lo que no permite evaluar las capacidades de razonamiento multimodal. Presentamos un marco de evaluación integral diseñado para evaluar sistemáticamente los U-MLLM. Nuestro punto de referencia incluye: Evaluación Estandarizada de Tareas Tradicionales. Tomamos muestras de 12 conjuntos de datos, cubriendo 10 tareas con 30 subtareas, asegurando comparaciones consistentes y justas entre estudios. 2. Evaluación Unificada de Tareas. Introducimos cinco tareas novedosas que prueban el razonamiento multimodal, incluyendo edición de imágenes, preguntas de sentido común con generación de imágenes y razonamiento geométrico. 3. Evaluación Integral de Modelos. Evaluamos 12 U-MLLM líderes, como Janus-Pro, EMU3, VILA-U y Gemini2-flash, junto con modelos especializados en comprensión (por ejemplo, Claude-3.5-Sonnet) y generación (por ejemplo, DALL-E-3). Nuestros hallazgos revelan brechas sustanciales en el rendimiento de los U-MLLM existentes, destacando la necesidad de modelos más robustos capaces de manejar tareas de modalidades mixtas de manera efectiva. El código y los datos de evaluación se pueden encontrar en https://mme-unify.github.io/.
La reconstrucción humana a partir de una sola imagen es fundamental para las aplicaciones de modelado digital de humanos, pero sigue siendo una tarea extremadamente desafiante. Los enfoques actuales dependen de modelos generativos para sintetizar imágenes multi-vista que luego se utilizan para la reconstrucción y animación 3D. Sin embargo, la generación directa de múltiples vistas a partir de una sola imagen humana sufre de inconsistencias geométricas, lo que resulta en problemas como extremidades fragmentadas o borrosas en los modelos reconstruidos. Para abordar estas limitaciones, presentamos HumanDreamer-X, un marco novedoso que integra la generación y reconstrucción multi-vista en una única canalización, lo que mejora significativamente la consistencia geométrica y la fidelidad visual de los modelos 3D reconstruidos. En este marco, el Splatting Gaussiano 3D sirve como una representación 3D explícita para proporcionar una prioridad inicial de geometría y apariencia. Sobre esta base, se entrena HumanFixer para restaurar las representaciones 3DGS, garantizando resultados fotorrealistas. Además, profundizamos en los desafíos inherentes asociados con los mecanismos de atención en la generación multi-vista de humanos y proponemos una estrategia de modulación de atención que mejora efectivamente los detalles geométricos y la consistencia de identidad en múltiples vistas. Los resultados experimentales demuestran que nuestro enfoque mejora notablemente las métricas de calidad PSNR en generación y reconstrucción en un 16.45% y 12.65%, respectivamente, alcanzando un PSNR de hasta 25.62 dB, mientras que también muestra capacidades de generalización en datos del mundo real y aplicabilidad a varios modelos base de reconstrucción humana.
Este artículo presenta Comprehensive Relighting, el primer enfoque integral que puede controlar y armonizar la iluminación de una imagen o video de humanos con partes del cuerpo arbitrarias en cualquier escena. Construir un modelo tan generalizable es extremadamente desafiante debido a la falta de conjuntos de datos, lo que restringe los modelos existentes de reiluminación basados en imágenes a escenarios específicos (por ejemplo, rostros o humanos estáticos). Para abordar este desafío, reutilizamos un modelo de difusión preentrenado como un prior general de imágenes y modelamos conjuntamente la reiluminación humana y la armonización del fondo en un marco de trabajo de coarse-to-fine. Para mejorar aún más la coherencia temporal de la reiluminación, introducimos un modelo temporal de iluminación no supervisado que aprende la consistencia del ciclo de iluminación a partir de muchos videos del mundo real sin necesidad de datos de referencia. En el tiempo de inferencia, nuestro módulo de iluminación temporal se combina con los modelos de difusión a través de algoritmos de mezcla de características espacio-temporales sin entrenamiento adicional; y aplicamos un nuevo refinamiento guiado como post-procesamiento para preservar los detalles de alta frecuencia de la imagen de entrada. En los experimentos, Comprehensive Relighting demuestra una fuerte generalización y coherencia temporal de la iluminación, superando a los métodos existentes de reiluminación y armonización humana basados en imágenes.
La segmentación de imágenes y videos médicos es una tarea crucial para la medicina de precisión, que ha experimentado un progreso considerable en el desarrollo de modelos específicos para tareas o modalidades, así como modelos generalistas para imágenes 2D. Sin embargo, existen estudios limitados sobre la creación de modelos de propósito general para imágenes y videos 3D con estudios de usuarios exhaustivos. Aquí presentamos MedSAM2, un modelo fundacional de segmentación adaptable para la segmentación de imágenes y videos 3D. Este modelo se desarrolló mediante el ajuste fino del Segment Anything Model 2 en un amplio conjunto de datos médicos que incluye más de 455,000 pares de imágenes-máscaras 3D y 76,000 fotogramas, superando a modelos anteriores en una amplia gama de órganos, lesiones y modalidades de imagen. Además, implementamos una canalización con intervención humana para facilitar la creación de conjuntos de datos a gran escala, lo que resultó, hasta donde sabemos, en el estudio de usuarios más extenso hasta la fecha, involucrando la anotación de 5,000 lesiones en tomografías computarizadas (TC), 3,984 lesiones hepáticas en resonancias magnéticas (RM) y 251,550 fotogramas de videos de ecocardiogramas, demostrando que MedSAM2 puede reducir los costos manuales en más del 85%. MedSAM2 también se integra en plataformas ampliamente utilizadas con interfaces amigables para su implementación local y en la nube, convirtiéndolo en una herramienta práctica para apoyar una segmentación eficiente, escalable y de alta calidad tanto en entornos de investigación como de atención médica.
Equilibrar la resolución temporal y el detalle espacial bajo un presupuesto computacional limitado sigue siendo un desafío clave para los modelos de lenguaje multimodal (MLLM) basados en video. Los métodos existentes suelen comprimir las representaciones de video utilizando reglas predefinidas antes de alimentarlas al LLM, lo que resulta en una pérdida irreversible de información y, a menudo, ignora las instrucciones de entrada. Para abordar esto, proponemos una arquitectura novedosa de lento-rápido que naturalmente evita esta compensación, permitiendo el uso de más fotogramas de entrada mientras se preservan los detalles espaciales. Inspirados en cómo los humanos primero hojean un video antes de enfocarse en las partes relevantes, nuestro diseño lento-rápido emplea una estrategia de doble token: 1) tokens visuales "rápidos" —un conjunto compacto de características de video comprimidas— se alimentan al LLM junto con incrustaciones de texto para proporcionar una visión general rápida; 2) tokens visuales "lentos" —características de video sin comprimir— son atendidos cruzadamente por incrustaciones de texto a través de capas decodificadoras híbridas especialmente diseñadas, permitiendo la extracción consciente de instrucciones de detalles visuales relevantes con complejidad lineal. Realizamos una exploración sistemática para optimizar tanto la arquitectura general como los componentes clave. Los experimentos muestran que nuestro modelo supera significativamente a las líneas base que solo utilizan autoatención, extendiendo la capacidad de entrada de 16 a 128 fotogramas con solo un aumento del 3% en el cómputo, y logrando una mejora promedio del 16% en cinco benchmarks de comprensión de video. Nuestro modelo de 7B alcanza un rendimiento de vanguardia entre modelos de tamaño similar. Además, nuestra arquitectura lento-rápido es un diseño plug-and-play que puede integrarse en otros MLLM de video para mejorar la eficiencia y escalabilidad.
En esta investigación, presentamos BEATS, un marco novedoso para evaluar el Sesgo, la Ética, la Equidad y la Veracidad en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Basándonos en el marco BEATS, presentamos un punto de referencia para medir el sesgo en LLMs que evalúa el rendimiento a través de 29 métricas distintas. Estas métricas abarcan una amplia gama de características, incluyendo sesgos demográficos, cognitivos y sociales, así como medidas de razonamiento ético, equidad grupal y riesgos de desinformación relacionados con la veracidad. Estas métricas permiten una evaluación cuantitativa del grado en que las respuestas generadas por LLMs pueden perpetuar prejuicios sociales que refuerzan o amplían las inequidades sistémicas. Para obtener una puntuación alta en este punto de referencia, un LLM debe mostrar un comportamiento muy equitativo en sus respuestas, lo que lo convierte en un estándar riguroso para la evaluación de IA responsable. Los resultados empíricos basados en datos de nuestro experimento muestran que el 37.65\% de las salidas generadas por modelos líderes de la industria contenían alguna forma de sesgo, destacando un riesgo sustancial al utilizar estos modelos en sistemas de toma de decisiones críticas. El marco y el punto de referencia BEATS ofrecen una metodología escalable y estadísticamente rigurosa para evaluar LLMs, diagnosticar los factores que impulsan los sesgos y desarrollar estrategias de mitigación. Con el marco BEATS, nuestro objetivo es contribuir al desarrollo de modelos de IA más socialmente responsables y alineados éticamente.
Cuando las ondas sonoras impactan un objeto, inducen vibraciones que producen cambios visuales de alta frecuencia y sutiles, los cuales pueden utilizarse para recuperar el sonido. Los estudios iniciales siempre enfrentan compensaciones relacionadas con la tasa de muestreo, el ancho de banda, el campo de visión y la simplicidad de la ruta óptica. Los avances recientes en hardware de cámaras de eventos muestran un buen potencial para su aplicación en la recuperación visual de sonido, debido a su capacidad superior para capturar señales de alta frecuencia. Sin embargo, los métodos existentes de recuperación de vibraciones basados en eventos aún no son óptimos para la recuperación de sonido. En este trabajo, proponemos una nueva pipeline para la recuperación de sonido sin contacto, utilizando completamente la información espacio-temporal del flujo de eventos. Primero generamos un gran conjunto de entrenamiento utilizando una novedosa pipeline de simulación. Luego diseñamos una red que aprovecha la escasez de eventos para capturar información espacial y utiliza Mamba para modelar información temporal a largo plazo. Finalmente, entrenamos un bloque de agregación espacial para consolidar información de diferentes ubicaciones y mejorar aún más la calidad de la señal. Para capturar señales de eventos causadas por ondas sonoras, también diseñamos un sistema de imágenes utilizando una matriz láser para mejorar el gradiente y recopilamos múltiples secuencias de datos para pruebas. Los resultados experimentales en datos sintéticos y del mundo real demuestran la efectividad de nuestro método.
Los recientes avances en la clonación de comportamiento han permitido que los robots realicen tareas de manipulación complejas. Sin embargo, evaluar con precisión el rendimiento del entrenamiento sigue siendo un desafío, especialmente para aplicaciones en el mundo real, ya que las pérdidas en la clonación de comportamiento a menudo se correlacionan pobremente con el éxito real de la tarea. En consecuencia, los investigadores recurren a métricas de tasa de éxito derivadas de evaluaciones en el mundo real que son costosas y consumen mucho tiempo, lo que hace que la identificación de políticas óptimas y la detección de sobreajuste o subajuste sean poco prácticas. Para abordar estos problemas, proponemos real-is-sim, un novedoso marco de clonación de comportamiento que incorpora un gemelo digital dinámico (basado en Gaussianas Embebidas) a lo largo de toda la cadena de desarrollo de políticas: recopilación de datos, entrenamiento y despliegue. Al alinear continuamente el mundo simulado con el mundo físico, las demostraciones pueden recopilarse en el mundo real con estados extraídos del simulador. El simulador permite representaciones de estado flexibles al renderizar entradas de imagen desde cualquier punto de vista o extraer información de estado de bajo nivel de los objetos embebidos en la escena. Durante el entrenamiento, las políticas pueden evaluarse directamente dentro del simulador de manera offline y altamente paralelizable. Finalmente, durante el despliegue, las políticas se ejecutan dentro del simulador, donde el robot real sigue directamente las articulaciones del robot simulado, desacoplando efectivamente la ejecución de la política del hardware real y mitigando los desafíos tradicionales de transferencia de dominio. Validamos real-is-sim en la tarea de manipulación PushT, demostrando una fuerte correlación entre las tasas de éxito obtenidas en el simulador y las evaluaciones en el mundo real. Los videos de nuestro sistema se pueden encontrar en https://realissim.rai-inst.com.
La delimitación precisa de los límites de los campos agrícolas a partir de imágenes satelitales es fundamental para la gestión del territorio y el monitoreo de cultivos. Sin embargo, los métodos actuales enfrentan desafíos debido al tamaño limitado de los conjuntos de datos, las discrepancias en la resolución y las diversas condiciones ambientales. Abordamos este problema reformulando la tarea como segmentación de instancias e introduciendo el conjunto de datos Field Boundary Instance Segmentation - 22M (FBIS-22M), un conjunto de datos a gran escala y multi-resolución que incluye 672,909 parches de imágenes satelitales de alta resolución (que van desde 0.25 m hasta 10 m) y 22,926,427 máscaras de instancias de campos individuales, reduciendo significativamente la brecha entre los conjuntos de datos agrícolas y aquellos en otros dominios de visión por computadora. Además, proponemos Delineate Anything, un modelo de segmentación de instancias entrenado en nuestro nuevo conjunto de datos FBIS-22M. Nuestro modelo propuesto establece un nuevo estado del arte, logrando una mejora sustancial del 88.5% en [email protected] y del 103% en [email protected]:0.95 sobre los métodos existentes, al mismo tiempo que demuestra una inferencia significativamente más rápida y una fuerte generalización zero-shot en diversas resoluciones de imágenes y regiones geográficas no vistas. El código, los modelos preentrenados y el conjunto de datos FBIS-22M están disponibles en https://lavreniuk.github.io/Delineate-Anything.
El ajuste fino de un modelo preentrenado de Texto a Imagen (T2I) en un conjunto de datos de retratos personalizados es el método principal para la personalización de atributos de retratos impulsada por texto. Debido a la Contaminación Semántica durante el ajuste fino, los métodos existentes tienen dificultades para mantener el comportamiento original del modelo y lograr un aprendizaje incremental mientras se personalizan los atributos objetivo. Para abordar este problema, proponemos SPF-Portrait, un trabajo pionero que busca comprender puramente la semántica personalizada mientras elimina la contaminación semántica en la personalización de retratos impulsada por texto. En nuestro SPF-Portrait, proponemos una canalización de doble vía que introduce el modelo original como referencia para la vía convencional de ajuste fino. A través del aprendizaje contrastivo, aseguramos la adaptación a los atributos objetivo y alineamos intencionalmente otros atributos no relacionados con el retrato original. Introducimos un nuevo Mapa de Control Fino Semántico, que representa las regiones de respuesta precisas de la semántica objetivo, para guiar espacialmente el proceso de alineación entre las vías contrastivas. Este proceso de alineación no solo preserva efectivamente el rendimiento del modelo original, sino que también evita la sobrealineación. Además, proponemos un nuevo mecanismo de mejora de respuesta para reforzar el rendimiento de los atributos objetivo, mitigando la discrepancia de representación inherente en la supervisión directa entre modalidades. Experimentos extensos demuestran que SPF-Portrait alcanza un rendimiento de vanguardia. Página del proyecto: https://spf-portrait.github.io/SPF-Portrait/