Artículos de investigación en IA seleccionados diariamente con traducciones
La generación de imágenes impulsada por el sujeto tiene como objetivo producir imágenes de un nuevo sujeto dentro de un contexto deseado capturando con precisión tanto las características visuales del sujeto como el contenido semántico de una indicación de texto. Los métodos tradicionales dependen de un ajuste fino intensivo en tiempo y recursos para la alineación del sujeto, mientras que los enfoques recientes de cero disparo aprovechan la indicación de imágenes sobre la marcha, a menudo sacrificando la alineación del sujeto. En este documento, presentamos Diptych Prompting, un enfoque novedoso de cero disparo que reinterpretación como una tarea de relleno con alineación precisa del sujeto aprovechando la propiedad emergente de generación de dipticos en modelos de generación de texto a imagen a gran escala. Diptych Prompting coloca un diptico incompleto con la imagen de referencia en el panel izquierdo y realiza un relleno condicionado por texto en el panel derecho. Además, evitamos la fuga de contenido no deseado eliminando el fondo en la imagen de referencia y mejoramos los detalles finos en el sujeto generado al mejorar los pesos de atención entre los paneles durante el relleno. Los resultados experimentales confirman que nuestro enfoque supera significativamente a los métodos de indicación de imagen de cero disparo, lo que resulta en imágenes que son visualmente preferidas por los usuarios. Además, nuestro método no solo respalda la generación impulsada por el sujeto, sino también la generación de imágenes estilizadas y la edición de imágenes impulsada por el sujeto, demostrando versatilidad en diversas aplicaciones de generación de imágenes. Página del proyecto: https://diptychprompting.github.io/
Esta investigación introduce un nuevo marco de evaluación diseñado para evaluar la capacidad de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) para reconocer la incertidumbre en 675 problemas fundamentalmente insolubles. Utilizando un conjunto de datos seleccionado de preguntas de desafío de nivel de posgrado con respuestas intencionalmente desconocidas, evaluamos doce LLMs de última generación, incluyendo modelos de código abierto y cerrado, en su propensión a admitir la ignorancia en lugar de generar respuestas plausibles pero incorrectas. Los mejores modelos obtuvieron rangos de precisión del 62 al 68% al admitir que la solución del problema era desconocida en campos que van desde la biología hasta la filosofía y las matemáticas. Observamos una relación inversa entre la dificultad del problema y la precisión del modelo, con GPT-4 demostrando tasas más altas de reconocimiento de la incertidumbre en problemas más desafiantes (35.8%) en comparación con los más simples (20.0%). Este patrón indica que los modelos pueden ser más propensos a generar respuestas especulativas cuando los problemas parecen más abordables. El estudio también reveló variaciones significativas entre las categorías de problemas, con los modelos mostrando dificultades para reconocer la incertidumbre en problemas de invención y NP-difíciles, mientras que se desempeñaban relativamente mejor en desafíos filosóficos y psicológicos. Estos resultados contribuyen al creciente cuerpo de investigación sobre la evaluación de la inteligencia artificial general (AGI, por sus siglas en inglés) al resaltar la importancia del reconocimiento de la incertidumbre como un componente crítico de la evaluación futura de la inteligencia de las máquinas. Esta prueba de imposibilidad extiende así los marcos teóricos previos para las pruebas de inteligencia universal al proporcionar evidencia empírica de las limitaciones actuales en la capacidad de los LLMs para reconocer los límites de su propio conocimiento, sugiriendo nuevas direcciones para mejorar las arquitecturas de entrenamiento de modelos y los enfoques de evaluación.
Presentamos Material Anything, un marco de difusión unificado totalmente automatizado diseñado para generar materiales basados en la física para objetos 3D. A diferencia de los métodos existentes que dependen de complejos flujos de trabajo o optimizaciones específicas de casos, Material Anything ofrece una solución sólida de extremo a extremo adaptable a objetos bajo diversas condiciones de iluminación. Nuestro enfoque aprovecha un modelo de difusión de imágenes pre-entrenado, mejorado con una arquitectura de triple cabeza y una pérdida de renderizado para mejorar la estabilidad y la calidad del material. Además, introducimos máscaras de confianza como un interruptor dinámico dentro del modelo de difusión, lo que le permite manejar eficazmente objetos texturizados y sin textura en diversas condiciones de iluminación. Al emplear una estrategia progresiva de generación de material guiada por estas máscaras de confianza, junto con un refinador de material en el espacio UV, nuestro método garantiza salidas de material consistentes y listas para UV. Experimentos extensos demuestran que nuestro enfoque supera a los métodos existentes en una amplia gama de categorías de objetos y condiciones de iluminación.
Este documento presenta un examen crítico de los enfoques actuales para replicar las capacidades del modelo O1 de OpenAI, con un enfoque particular en el uso generalizado pero a menudo no divulgado de técnicas de destilación de conocimiento. Mientras que nuestro trabajo anterior exploró el camino técnico fundamental para replicar O1, este estudio revela cómo la simple destilación desde la API de O1, combinada con un ajuste fino supervisado, puede lograr un rendimiento superior en tareas complejas de razonamiento matemático. A través de experimentos extensos, demostramos que un modelo base ajustado fino en simplemente decenas de miles de muestras destiladas de O1 supera a O1 en la American Invitational Mathematics Examination (AIME) con una complejidad técnica mínima. Además, nuestra investigación se extiende más allá del razonamiento matemático para explorar las capacidades de generalización de los modelos destilados de O1 en diversas tareas: alucinación, seguridad y preguntas y respuestas de dominio abierto. Es notable que, a pesar de entrenar solo con datos de resolución de problemas matemáticos, nuestros modelos demostraron una fuerte capacidad de generalización a tareas de preguntas y respuestas abiertas y se volvieron significativamente menos susceptibles a la adulación después del ajuste fino. Deliberadamente hacemos este hallazgo público para promover la transparencia en la investigación de IA y desafiar la tendencia actual de afirmaciones técnicas oscurecidas en el campo. Nuestro trabajo incluye: (1) Una exposición técnica detallada del proceso de destilación y su efectividad, (2) Un marco de referencia de evaluación integral para evaluar y categorizar intentos de replicación de O1 basados en su transparencia técnica y reproducibilidad, (3) Una discusión crítica de las limitaciones y riesgos potenciales de depender demasiado de enfoques de destilación, nuestro análisis culmina en una lección amarga crucial: si bien la búsqueda de sistemas de IA más capaces es importante, el desarrollo de investigadores fundamentados en el pensamiento de primeros principios es primordial.
La evaluación y valoración han sido desafíos críticos en la inteligencia artificial (IA) y el procesamiento del lenguaje natural (PLN) desde hace mucho tiempo. Sin embargo, los métodos tradicionales, ya sean basados en coincidencias o en incrustaciones, a menudo no logran juzgar atributos sutiles y ofrecer resultados satisfactorios. Los avances recientes en Modelos de Lenguaje Grandes (LLMs) inspiran el paradigma "LLM-como-juez", donde los LLMs se utilizan para realizar puntuaciones, clasificaciones o selecciones en diversas tareas y aplicaciones. Este documento proporciona una encuesta exhaustiva sobre la valoración y juicio basados en LLM, ofreciendo una visión general detallada para avanzar en este campo emergente. Comenzamos dando definiciones detalladas desde perspectivas de entrada y salida. Luego presentamos una taxonomía integral para explorar el LLM-como-juez desde tres dimensiones: qué juzgar, cómo juzgar y dónde juzgar. Finalmente, recopilamos puntos de referencia para evaluar el LLM-como-juez y destacamos los desafíos clave y las direcciones prometedoras, con el objetivo de proporcionar ideas valiosas e inspirar futuras investigaciones en esta área de investigación prometedora. Se puede encontrar una lista de artículos y más recursos sobre LLM-como-juez en https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge y https://llm-as-a-judge.github.io.
A pesar de los significativos avances en inteligencia artificial general, como GPT-4, su efectividad en el ámbito médico (inteligencia artificial médica general, GMAI) sigue siendo limitada debido a la ausencia de conocimientos médicos especializados. Para abordar este desafío, presentamos GMAI-VL-5.5M, un completo conjunto de datos médicos multimodal creado mediante la conversión de cientos de conjuntos de datos médicos especializados en pares de imágenes y texto meticulosamente construidos. Este conjunto de datos ofrece una cobertura de tareas integral, diversas modalidades y datos de imagen-texto de alta calidad. Basándonos en este conjunto de datos multimodal, proponemos GMAI-VL, un modelo de visión y lenguaje médico general con una estrategia de entrenamiento progresiva de tres etapas. Este enfoque mejora significativamente la capacidad del modelo al integrar información visual y textual, mejorando así su capacidad para procesar datos multimodales y apoyar el diagnóstico preciso y la toma de decisiones clínicas. Las evaluaciones experimentales demuestran que GMAI-VL logra resultados de vanguardia en una amplia gama de tareas médicas multimodales, como responder preguntas visuales y diagnóstico de imágenes médicas. Nuestras contribuciones incluyen el desarrollo del conjunto de datos GMAI-VL-5.5M, la introducción del modelo GMAI-VL y el establecimiento de nuevos puntos de referencia en múltiples dominios médicos. El código y el conjunto de datos se publicarán en https://github.com/uni-medical/GMAI-VL.
Aquí presentamos los resultados del segundo Hackatón de Modelos de Lenguaje Grande (LLM) para Aplicaciones en Ciencia de Materiales y Química, que involucró a participantes en ubicaciones híbridas globales, resultando en 34 presentaciones de equipos. Las presentaciones abarcaron siete áreas clave de aplicación y demostraron la diversa utilidad de los LLM para aplicaciones en (1) predicción de propiedades moleculares y de materiales; (2) diseño molecular y de materiales; (3) automatización e interfaces novedosas; (4) comunicación científica y educación; (5) gestión y automatización de datos de investigación; (6) generación y evaluación de hipótesis; y (7) extracción de conocimiento y razonamiento a partir de la literatura científica. Cada presentación de equipo se muestra en una tabla resumen con enlaces al código y como breves documentos en el apéndice. Además de los resultados de los equipos, discutimos el evento del hackatón y su formato híbrido, que incluyó centros físicos en Toronto, Montreal, San Francisco, Berlín, Lausana y Tokio, junto con un centro global en línea para facilitar la colaboración local y virtual. En general, el evento destacó mejoras significativas en las capacidades de los LLM desde el hackatón del año anterior, sugiriendo una expansión continua de los LLM para aplicaciones en la investigación de ciencia de materiales y química. Estos resultados demuestran la doble utilidad de los LLM como modelos multipropósito para diversas tareas de aprendizaje automático y plataformas para el prototipado rápido de aplicaciones personalizadas en la investigación científica.
Presentamos OneDiffusion, un modelo de difusión versátil a gran escala que admite de manera fluida la síntesis bidireccional de imágenes y la comprensión en diversas tareas. Permite la generación condicional a partir de entradas como texto, profundidad, pose, diseño y mapas semánticos, al tiempo que aborda tareas como el desenfoque de imágenes, aumento de resolución y procesos inversos como la estimación de profundidad y segmentación de imágenes. Además, OneDiffusion permite la generación de múltiples vistas, estimación de la pose de la cámara y personalización instantánea utilizando entradas de imágenes secuenciales. Nuestro modelo adopta un enfoque sencillo pero efectivo al tratar todas las tareas como secuencias de fotogramas con diferentes escalas de ruido durante el entrenamiento, lo que permite que cualquier fotograma actúe como imagen condicionante en el momento de la inferencia. Nuestro marco unificado de entrenamiento elimina la necesidad de arquitecturas especializadas, admite un entrenamiento multi-tarea escalable y se adapta sin problemas a cualquier resolución, mejorando tanto la generalización como la escalabilidad. Los resultados experimentales demuestran un rendimiento competitivo en tareas de generación y predicción como texto a imagen, generación multivista, preservación de identificación, estimación de profundidad y estimación de la pose de la cámara a pesar de un conjunto de datos de entrenamiento relativamente pequeño. Nuestro código y punto de control están disponibles de forma gratuita en https://github.com/lehduong/OneDiffusion
El modelo Multi-Head Mixture-of-Experts (MH-MoE) demuestra un rendimiento superior al utilizar el mecanismo multi-head para atender colectivamente la información de diversos espacios de representación dentro de diferentes expertos. En este artículo, presentamos una implementación novedosa de MH-MoE que mantiene tanto los FLOPs como la paridad de parámetros con modelos dispersos de Mixture of Experts. Los resultados experimentales en modelos de lenguaje muestran que la nueva implementación produce mejoras en la calidad tanto en comparación con MoE estándar como con modelos MoE detallados. Además, nuestros experimentos demuestran que MH-MoE es compatible con Modelos de Lenguaje Grandes (LLMs) de 1-bit como BitNet.
La Segmentación Interactiva de Imágenes Médicas (IMIS, por sus siglas en inglés) ha estado durante mucho tiempo limitada por la disponibilidad limitada de conjuntos de datos grandes, diversos y densamente anotados, lo que dificulta la generalización del modelo y la evaluación consistente entre diferentes modelos. En este artículo, presentamos el conjunto de datos de referencia IMed-361M, un avance significativo en la investigación general de IMIS. En primer lugar, recopilamos y estandarizamos más de 6.4 millones de imágenes médicas y sus máscaras de verdad terreno correspondientes de múltiples fuentes de datos. Luego, aprovechando las sólidas capacidades de reconocimiento de objetos de un modelo visionario fundamental, generamos automáticamente máscaras interactivas densas para cada imagen y garantizamos su calidad a través de un riguroso control de calidad y gestión de granularidad. A diferencia de conjuntos de datos anteriores, que están limitados por modalidades específicas o anotaciones dispersas, IMed-361M abarca 14 modalidades y 204 objetivos de segmentación, con un total de 361 millones de máscaras, un promedio de 56 máscaras por imagen. Finalmente, desarrollamos una red de referencia de IMIS en este conjunto de datos que admite la generación de máscaras de alta calidad a través de entradas interactivas, que incluyen clics, cuadros delimitadores, indicaciones de texto y sus combinaciones. Evaluamos su rendimiento en tareas de segmentación de imágenes médicas desde múltiples perspectivas, demostrando una precisión y escalabilidad superiores en comparación con los modelos de segmentación interactiva existentes. Para facilitar la investigación sobre modelos fundamentales en visión por computadora médica, publicamos IMed-361M y el modelo en https://github.com/uni-medical/IMIS-Bench.
La Tomografía Computarizada (TC) es una de las modalidades más populares para la obtención de imágenes médicas. Hasta ahora, las imágenes de TC han contribuido a los conjuntos de datos públicos más grandes para tareas de segmentación médica volumétrica, abarcando estructuras anatómicas de cuerpo completo. Grandes cantidades de imágenes de TC de cuerpo completo brindan la oportunidad de pre-entrenar modelos potentes, por ejemplo, STU-Net pre-entrenado de manera supervisada, para segmentar numerosas estructuras anatómicas. Sin embargo, sigue siendo incierto en qué condiciones estos modelos pre-entrenados pueden transferirse a diversas tareas de segmentación médica posteriores, en particular la segmentación de otras modalidades y objetivos diversos. Para abordar este problema, es crucial contar con un benchmark a gran escala para una evaluación exhaustiva que permita identificar estas condiciones. Por lo tanto, recopilamos 87 conjuntos de datos públicos que varían en modalidad, objetivo y tamaño de muestra para evaluar la capacidad de transferencia de modelos pre-entrenados de TC de cuerpo completo. Luego, empleamos un modelo representativo, STU-Net con múltiples escalas de modelo, para llevar a cabo el aprendizaje por transferencia entre modalidades y objetivos. Nuestros resultados experimentales muestran que (1) puede haber un efecto de cuello de botella en cuanto al tamaño del conjunto de datos en el ajuste fino, con una mayor mejora tanto en conjuntos de datos pequeños como grandes que en los de tamaño mediano. (2) Los modelos pre-entrenados en TC de cuerpo completo demuestran una transferencia efectiva de modalidad, adaptándose bien a otras modalidades como la resonancia magnética (RM). (3) El pre-entrenamiento en TC de cuerpo completo no solo respalda un rendimiento sólido en la detección de estructuras, sino que también muestra eficacia en la detección de lesiones, demostrando adaptabilidad en tareas de objetivo. Esperamos que esta evaluación a gran escala del aprendizaje por transferencia pueda orientar la investigación futura en la segmentación de imágenes médicas volumétricas.
AdamW ha sido el optimizador predeterminado para el preentrenamiento de transformadores. Durante muchos años, nuestra comunidad ha buscado optimizadores más rápidos y estables con resultados positivos únicamente. En este trabajo, proponemos una modificación de una sola línea en Pytorch para cualquier optimizador basado en momento, al que renombramos como Optimizador Cauteloso, por ejemplo, C-AdamW y C-Lion. Nuestro resultado teórico muestra que esta modificación conserva la función Hamiltoniana de Adam y no rompe la garantía de convergencia bajo el análisis de Lyapunov. Además, nuestra perspicacia teórica revela toda una nueva familia de optimizadores. Entre ellos, elegimos el más simple para experimentos empíricos, mostrando una aceleración en el preentrenamiento de Llama y MAE de hasta 1.47 veces. El código está disponible en https://github.com/kyleliang919/C-Optim.
La generación de videos narrativos (SVG) ha surgido recientemente como una tarea para crear videos largos, con múltiples movimientos y escenas que representen consistentemente la historia descrita en el guion de texto de entrada. El SVG tiene un gran potencial para la creación de contenido diverso en medios y entretenimiento; sin embargo, también presenta desafíos significativos: (1) los objetos deben exhibir una variedad de movimientos complejos y detallados, (2) múltiples objetos deben aparecer consistentemente a lo largo de las escenas y (3) los sujetos pueden requerir múltiples movimientos con transiciones fluidas dentro de una sola escena. Para abordar estos desafíos, proponemos DreamRunner, un novedoso método de generación de video a partir de historias: Primero, estructuramos el guion de entrada utilizando un gran modelo de lenguaje (LLM) para facilitar tanto la planificación de escenas a nivel grueso como la disposición de objetos detallada y la planificación de movimientos. A continuación, DreamRunner presenta una adaptación en tiempo de prueba aumentada por recuperación para capturar prioridades de movimiento objetivo para los objetos en cada escena, apoyando la personalización de movimientos diversos basados en videos recuperados, facilitando así la generación de nuevos videos con movimientos complejos y guionizados. Por último, proponemos un módulo de atención 3D basado en regiones espacio-temporales y en inyección de prioridades SR3AI para la vinculación de movimientos de objetos detallados y el control semántico cuadro por cuadro. Comparamos DreamRunner con varias líneas base de SVG, demostrando un rendimiento de vanguardia en consistencia de personajes, alineación de texto y transiciones suaves. Además, DreamRunner muestra una sólida capacidad de seguimiento de condiciones detalladas en la generación de texto a video compuesto, superando significativamente a las líneas base en T2V-ComBench. Finalmente, validamos la capacidad robusta de DreamRunner para generar interacciones multiobjetos con ejemplos cualitativos.
Los tokenizadores visuales son fundamentales para la generación de imágenes. Convierten los datos visuales en tokens discretos, permitiendo que los modelos basados en transformadores destaquen en la generación de imágenes. A pesar de su éxito, los tokenizadores basados en VQ, como VQGAN, enfrentan limitaciones significativas debido a tamaños de vocabulario restringidos. Simplemente expandir el libro de códigos a menudo conduce a inestabilidad en el entrenamiento y a una disminución en los avances de rendimiento, lo que convierte a la escalabilidad en un desafío crítico. En este trabajo, presentamos la Cuantización Factorizada (FQ), un enfoque novedoso que revitaliza los tokenizadores basados en VQ al descomponer un gran libro de códigos en múltiples sub-libros de códigos independientes. Esta factorización reduce la complejidad de búsqueda de grandes libros de códigos, permitiendo una tokenización visual más eficiente y escalable. Para asegurar que cada sub-libro de códigos capture información distinta y complementaria, proponemos una regularización de desentrelazado que reduce explícitamente la redundancia, promoviendo la diversidad entre los sub-libros de códigos. Además, integramos el aprendizaje de representaciones en el proceso de entrenamiento, aprovechando modelos de visión preentrenados como CLIP y DINO para infundir riqueza semántica en las representaciones aprendidas. Este diseño asegura que nuestro tokenizador capture diversos niveles semánticos, lo que resulta en representaciones más expresivas y desentrelazadas. Los experimentos muestran que el modelo propuesto FQGAN mejora sustancialmente la calidad de reconstrucción de los tokenizadores visuales, logrando un rendimiento de vanguardia. Además, demostramos que este tokenizador puede adaptarse de manera efectiva a la generación de imágenes auto-regresiva. https://showlab.github.io/FQGAN
Hacemos la hipótesis de que el historial visual de un usuario con imágenes que reflejan su vida diaria, ofrece valiosas perspectivas sobre sus intereses y preferencias, y puede ser aprovechado para la personalización. Entre los numerosos desafíos para lograr este objetivo, el principal es la diversidad y el ruido en el historial visual, que contiene imágenes no necesariamente relacionadas con una tarea de recomendación, no reflejando necesariamente el interés del usuario, o incluso no siendo necesariamente relevante para sus preferencias. Los sistemas de recomendación existentes se basan en registros de interacción de usuarios específicos de la tarea, como el historial de compras en línea para recomendaciones de compras, o se centran en señales de texto. Proponemos un enfoque novedoso, VisualLens, que extrae, filtra y perfecciona representaciones de imágenes, y aprovecha estas señales para la personalización. Creamos dos nuevos puntos de referencia con historiales visuales agnósticos a la tarea, y mostramos que nuestro método mejora las recomendaciones de vanguardia en un 5-10% en Hit@3, y mejora en un 2-5% sobre GPT-4o. Nuestro enfoque allana el camino para recomendaciones personalizadas en escenarios donde los métodos tradicionales fallan.
Presentamos una forma de aprender conceptos novedosos utilizando únicamente su descripción textual. Llamamos a este método Transferencia de Conocimiento. De manera similar a la percepción humana, aprovechamos la interacción entre modalidades para introducir nuevos conceptos. Planteamos la hipótesis de que en un codificador visual pre-entrenado ya se han aprendido suficientes características de bajo nivel (por ejemplo, forma, apariencia, color) que pueden utilizarse para describir conceptos de alto nivel previamente desconocidos. Al proporcionar una descripción textual del concepto novedoso, nuestro método funciona al alinear las características de bajo nivel conocidas del codificador visual con su descripción textual de alto nivel. Mostramos que la Transferencia de Conocimiento puede introducir con éxito conceptos novedosos en modelos multimodales, de manera muy eficiente, al requerir únicamente una descripción del concepto objetivo. Nuestro enfoque es compatible tanto con codificadores textuales y visuales separados (por ejemplo, CLIP) como con parámetros compartidos entre modalidades. También demostramos que, siguiendo el mismo principio, la Transferencia de Conocimiento puede mejorar los conceptos ya conocidos por el modelo. Al aprovechar la Transferencia de Conocimiento, mejoramos el rendimiento de cero disparos en diferentes tareas como clasificación, segmentación, recuperación de imágenes-texto y descripción de imágenes.
La transición de la arquitectura x86 a ARM se está volviendo cada vez más común en diversos ámbitos, impulsada principalmente por la eficiencia energética de ARM y el mejor rendimiento en sectores tradicionales. Sin embargo, este cambio de ISA plantea desafíos significativos, principalmente debido al extenso ecosistema heredado de software x86 y la falta de portabilidad entre ecosistemas y pilas de software propietarios. Este artículo presenta CRT, un transpilador ligero basado en LLM que convierte automáticamente el ensamblador x86 al ensamblador ARM. Nuestro enfoque aborda la brecha arquitectónica fundamental entre el CISC de x86 y el RISC de ARM, preservando la semántica del programa y optimizando el rendimiento. Evaluamos CRT en diversas aplicaciones del mundo real, logrando una precisión de traducción del 79.25% de x86 a ARMv5 en nuestra suite de pruebas exhaustiva, y una precisión del 88.68% de x86 a RISC-V. En implementaciones prácticas en hardware Apple M2 (ARMv8), nuestro código transpilado logra una mejora de velocidad de 1.73 veces en comparación con el motor de virtualización Rosetta 2 de Apple, al tiempo que ofrece una eficiencia de memoria 2.41 veces mayor y un consumo de energía 1.47 veces mejor. A través de pruebas y análisis, demostramos que CRT navega con éxito la división CISC/RISC y genera código RISC ejecutable correctamente a pesar de las barreras de "lenguaje" de la máquina. Publicamos nuestro código, modelos, conjuntos de datos de entrenamiento y benchmarks en: https://ahmedheakl.github.io/asm2asm/.
Los Modelos Multimodales Grandes (LMMs) existentes suelen centrarse únicamente en algunas regiones y idiomas. A medida que los LMMs continúan mejorando, es cada vez más importante asegurar que comprendan los contextos culturales, respeten las sensibilidades locales y apoyen los idiomas con recursos limitados, todo ello integrando eficazmente las señales visuales correspondientes. En la búsqueda de modelos multimodales globales culturalmente diversos, nuestro propuesto Banco de Pruebas Todos los Idiomas Importan (ALM-bench) representa el esfuerzo más grande y completo hasta la fecha para evaluar LMMs en 100 idiomas. ALM-bench desafía a los modelos existentes al poner a prueba su capacidad para comprender y razonar sobre imágenes culturalmente diversas emparejadas con texto en varios idiomas, incluyendo muchos idiomas con recursos limitados tradicionalmente subrepresentados en la investigación de LMMs. El banco de pruebas ofrece un marco de evaluación sólido y matizado que incluye varios formatos de preguntas, como verdadero/falso, opción múltiple y preguntas abiertas, que a su vez se dividen en categorías de respuestas cortas y largas. El diseño de ALM-bench garantiza una evaluación integral de la capacidad de un modelo para manejar diferentes niveles de dificultad en el razonamiento visual y lingüístico. Para capturar la rica diversidad de culturas globales, ALM-bench selecciona cuidadosamente contenido de 13 aspectos culturales distintos, que van desde tradiciones y rituales hasta personalidades famosas y celebraciones. A través de esto, ALM-bench no solo proporciona un terreno de prueba riguroso para LMMs de código abierto y cerrado de última generación, sino que también destaca la importancia de la inclusividad cultural y lingüística, fomentando el desarrollo de modelos que puedan servir de manera efectiva a diversas poblaciones globales. Nuestro banco de pruebas está disponible públicamente.
La generación y edición basadas en texto de escenas 3D tienen un gran potencial para agilizar la creación de contenido a través de interacciones intuitivas con el usuario. Si bien los avances recientes aprovechan el Splatting Gaussiano 3D (3DGS) para renderizado de alta fidelidad y en tiempo real, los métodos existentes a menudo son especializados y centrados en tareas específicas, careciendo de un marco unificado tanto para la generación como para la edición. En este documento, presentamos SplatFlow, un marco integral que aborda esta brecha al permitir la generación y edición directa de 3DGS. SplatFlow consta de dos componentes principales: un modelo de flujo rectificado (RF) multi-vista y un Decodificador de Splatting Gaussiano (GSDecoder). El modelo RF multi-vista opera en el espacio latente, generando imágenes multi-vista, profundidades y poses de cámara simultáneamente, condicionadas a indicaciones de texto, abordando así desafíos como escalas de escena diversas y trayectorias de cámara complejas en entornos del mundo real. Luego, el GSDecoder traduce eficientemente estas salidas latentes en representaciones 3DGS a través de un método 3DGS de avance rápido. Aprovechando técnicas de inversión e inpainting sin entrenamiento, SplatFlow permite una edición de 3DGS fluida y admite una amplia gama de tareas 3D, incluida la edición de objetos, síntesis de vistas novedosas y estimación de poses de cámara, dentro de un marco unificado sin requerir tuberías complejas adicionales. Validamos las capacidades de SplatFlow en los conjuntos de datos MVImgNet y DL3DV-7K, demostrando su versatilidad y efectividad en diversas tareas de generación, edición e inpainting en 3D.
Ha sido bien sabido que la Cadena de Pensamiento puede mejorar notablemente el rendimiento de los LLMs en tareas complejas. Sin embargo, debido a que también introduce velocidades de inferencia más lentas y mayores costos computacionales, muchos investigadores han intentado utilizar CoT implícito, el cual no requiere que los LLMs generen explícitamente los pasos intermedios. A pesar de esto, todavía existe una brecha entre su eficacia y los métodos típicos de CoT explícito. Esto nos lleva a cuestionar si el CoT implícito realmente equivale al CoT explícito. Por lo tanto, en este estudio abordamos esta pregunta a través de experimentos. Investigamos la información de los pasos intermedios a partir de los estados ocultos del modelo cuando está realizando CoT implícito. Los resultados indican sorprendentemente que los LLMs apenas consideran los pasos intermedios, lo que sugiere que pueden depender más de la experiencia que de un razonamiento estricto paso a paso. Además, encontramos que las capacidades de razonamiento implícito de los LLMs son susceptibles e inestables, reafirmando la necesidad de CoT explícito para apoyar efectivamente tareas complejas.
Un desafío fundamental abierto en la escalabilidad moderna de los LLM es la falta de comprensión en torno a las capacidades emergentes. En particular, se sabe que la pérdida de preentrenamiento del modelo de lenguaje es altamente predecible en función del cálculo. Sin embargo, las capacidades posteriores son mucho menos predecibles, a veces incluso mostrando saltos emergentes, lo que dificulta anticipar las capacidades de los modelos futuros. En este trabajo, planteamos primero la tarea de predicción de emergencia: dado acceso a LLMs actuales que tienen precisión aleatoria de pocos disparos en una tarea, ¿podemos predecir si los modelos futuros (GPT-N+1) tendrán precisión no trivial en esa tarea? Luego descubrimos una idea simple para este problema: el ajuste fino de LLMs en una tarea dada puede desplazar el punto en la escala en el que ocurre la emergencia hacia modelos menos capaces. Para operacionalizar esta idea, podemos ajustar finamente LLMs con diferentes cantidades de datos y ajustar una función paramétrica que predice cuándo ocurrirá la emergencia (es decir, "leyes de emergencia"). Validamos este enfoque utilizando cuatro pruebas estándar de PNL donde los LLMs de código abierto a gran escala ya demuestran emergencia (MMLU, GSM8K, CommonsenseQA y CoLA). Utilizando solo LLMs a pequeña escala, encontramos que, en algunos casos, podemos predecir con precisión si los modelos entrenados con hasta 4 veces más cálculo han emergido. Finalmente, presentamos un estudio de caso de dos usos realistas para la predicción de emergencia.
Los modelos de secuencia modernos (por ejemplo, Transformers, RNN lineales, etc.) han surgido como las estructuras principales de los marcos de aprendizaje profundo recientes, principalmente debido a su eficiencia, poder representativo y/o capacidad para capturar dependencias a largo plazo. La adopción de estos modelos de secuencia para datos estructurados en grafo ha ganado popularidad recientemente como alternativa a las Redes Neuronales de Paso de Mensajes (MPNNs). Sin embargo, existe una falta de una base común sobre lo que constituye un buen modelo de secuencia de grafo, y una descripción matemática de los beneficios y deficiencias al adoptar diferentes modelos de secuencia para el aprendizaje en grafos. Con este fin, primero presentamos el Modelo de Secuencia de Grafo (GSM), un marco unificador para adoptar modelos de secuencia para grafos, que consta de tres pasos principales: (1) Tokenización, que traduce el grafo en un conjunto de secuencias; (2) Codificación Local, que codifica los vecindarios locales alrededor de cada nodo; y (3) Codificación Global, que emplea un modelo de secuencia escalable para capturar dependencias a largo plazo dentro de las secuencias. Este marco nos permite comprender, evaluar y comparar el poder de las estructuras de modelos de secuencia diferentes en tareas de grafo. Nuestras evaluaciones teóricas del poder de representación de Transformers y modelos recurrentes modernos a través del prisma de tareas de grafo globales y locales muestran que existen aspectos negativos y positivos para ambos tipos de modelos. Basándonos en esta observación, presentamos GSM++, un modelo híbrido rápido que utiliza el algoritmo de Agrupamiento de Afinidad Jerárquica (HAC) para tokenizar el grafo en secuencias jerárquicas, y luego emplea una arquitectura híbrida de Transformer para codificar estas secuencias. Nuestros resultados teóricos y experimentales respaldan el diseño de GSM++, mostrando que GSM++ supera a los puntos de referencia en la mayoría de las evaluaciones de referencia.
La Estimación de Postura Agnóstica de Categoría (CAPE) localiza puntos clave en diversas categorías de objetos con un solo modelo, utilizando una o unas pocas imágenes de soporte anotadas. Trabajos recientes han demostrado que el uso de un grafo de postura (es decir, tratando los puntos clave como nodos en un grafo en lugar de puntos aislados) ayuda a manejar las oclusiones y romper la simetría. Sin embargo, estos métodos asumen un grafo de postura estático con aristas de igual peso, lo que conduce a resultados subóptimos. Presentamos EdgeCape, un nuevo marco que supera estas limitaciones al predecir los pesos de las aristas del grafo, lo que optimiza la localización. Para aprovechar aún más los conocimientos previos estructurales, proponemos integrar el Sesgo Estructural Markoviano, que modula la interacción de autoatención entre nodos en función del número de saltos entre ellos. Mostramos que esto mejora la capacidad del modelo para capturar dependencias espaciales globales. Evaluado en el banco de pruebas MP-100, que incluye 100 categorías y más de 20,000 imágenes, EdgeCape logra resultados de vanguardia en el escenario de 1 disparo y lidera entre métodos de tamaño similar en el escenario de 5 disparos, mejorando significativamente la precisión de localización de puntos clave. Nuestro código está disponible públicamente.
Estudiamos la segmentación de partes en el mundo abierto en 3D: segmentando cualquier parte en cualquier objeto basado en cualquier consulta de texto. Los métodos previos están limitados en categorías de objetos y vocabularios de partes. Los avances recientes en IA han demostrado capacidades efectivas de reconocimiento en el mundo abierto en 2D. Inspirados por este progreso, proponemos un modelo de predicción directa de mundo abierto para la segmentación de partes en 3D que puede aplicarse de manera de cero disparos a cualquier objeto. Nuestro enfoque, llamado Find3D, entrena un modelo de incrustación de puntos de categoría general en activos 3D a gran escala de internet sin ninguna anotación humana. Combina un motor de datos, impulsado por modelos fundamentales para la anotación de datos, con un método de entrenamiento contrastivo. Logramos un rendimiento sólido y generalización en múltiples conjuntos de datos, con una mejora de hasta 3 veces en mIoU sobre el siguiente mejor método. Nuestro modelo es de 6 a más de 300 veces más rápido que las líneas de base existentes. Para fomentar la investigación en la segmentación de partes en 3D de categoría general en el mundo abierto, también lanzamos un punto de referencia para objetos y partes generales. Sitio web del proyecto: https://ziqi-ma.github.io/find3dsite/