Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos generativos han tenido un impacto significativo en diversos ámbitos, en gran parte debido a su capacidad de escalar durante el entrenamiento mediante el aumento de datos, recursos computacionales y tamaño del modelo, un fenómeno caracterizado por las leyes de escalamiento. Investigaciones recientes han comenzado a explorar el comportamiento de escalamiento en tiempo de inferencia en Modelos de Lenguaje Grandes (LLMs), revelando cómo el rendimiento puede mejorar aún más con cálculos adicionales durante la inferencia. A diferencia de los LLMs, los modelos de difusión poseen inherentemente la flexibilidad para ajustar la computación en tiempo de inferencia a través del número de pasos de desruido, aunque las mejoras de rendimiento suelen estabilizarse después de unas pocas docenas. En este trabajo, exploramos el comportamiento de escalamiento en tiempo de inferencia de los modelos de difusión más allá del aumento de pasos de desruido e investigamos cómo el rendimiento de generación puede mejorar aún más con una mayor computación. Específicamente, consideramos un problema de búsqueda destinado a identificar mejores ruidos para el proceso de muestreo de difusión. Estructuramos el espacio de diseño a lo largo de dos ejes: los verificadores utilizados para proporcionar retroalimentación y los algoritmos utilizados para encontrar mejores candidatos de ruido. A través de experimentos exhaustivos en benchmarks de generación de imágenes condicionadas por clase y texto, nuestros hallazgos revelan que aumentar la computación en tiempo de inferencia conduce a mejoras sustanciales en la calidad de las muestras generadas por los modelos de difusión, y con la naturaleza complicada de las imágenes, las combinaciones de los componentes en el marco pueden ser elegidas específicamente para cumplir con diferentes escenarios de aplicación.
La escritura automática con grandes modelos de lenguaje a menudo se basa en la generación aumentada por recuperación. Sin embargo, estos enfoques permanecen confinados dentro de los límites del alcance predefinido del modelo, lo que limita la generación de contenido con información rica. Específicamente, la información recuperada de forma básica tiende a carecer de profundidad, utilidad y sufre de redundancia, lo que impacta negativamente en la calidad de los artículos generados, resultando en salidas superficiales, repetitivas y poco originales. Para abordar estos problemas, proponemos OmniThink, un marco de escritura automática que emula el proceso humano de expansión iterativa y reflexión. La idea central detrás de OmniThink es simular el comportamiento cognitivo de los aprendices a medida que profundizan progresivamente su conocimiento de los temas. Los resultados experimentales demuestran que OmniThink mejora la densidad de conocimiento de los artículos generados sin comprometer métricas como coherencia y profundidad. Las evaluaciones humanas y la retroalimentación de expertos resaltan además el potencial de OmniThink para abordar desafíos del mundo real en la generación de artículos extensos.
El lenguaje ha sido concebido durante mucho tiempo como una herramienta esencial para el razonamiento humano. El avance de los Modelos de Lenguaje Grandes (LLMs) ha generado un gran interés en la investigación para aprovechar estos modelos en la resolución de tareas de razonamiento complejas. Los investigadores han avanzado más allá de la simple generación autoregresiva de tokens al introducir el concepto de "pensamiento" - una secuencia de tokens que representan pasos intermedios en el proceso de razonamiento. Este paradigma innovador permite a los LLMs imitar procesos de razonamiento humano complejos, como la búsqueda en árboles y el pensamiento reflexivo. Recientemente, una tendencia emergente de aprendizaje para razonar ha aplicado el aprendizaje por refuerzo (RL) para entrenar LLMs en el dominio de los procesos de razonamiento. Este enfoque permite la generación automática de trayectorias de razonamiento de alta calidad a través de algoritmos de búsqueda de prueba y error, expandiendo significativamente la capacidad de razonamiento de los LLMs al proporcionar considerablemente más datos de entrenamiento. Además, estudios recientes demuestran que al alentar a los LLMs a "pensar" con más tokens durante la inferencia en tiempo de prueba puede aumentar significativamente la precisión del razonamiento. Por lo tanto, la combinación de la escalabilidad en el entrenamiento y en la prueba muestra una nueva frontera de investigación: un camino hacia un Modelo de Razonamiento Grande. La introducción de la serie o1 de OpenAI marca un hito significativo en esta dirección de investigación. En esta encuesta, presentamos una revisión exhaustiva de los avances recientes en el razonamiento de LLMs. Comenzamos introduciendo los antecedentes fundamentales de los LLMs y luego exploramos los componentes técnicos clave que impulsan el desarrollo de modelos de razonamiento grandes, con un enfoque en la construcción automática de datos, técnicas de aprendizaje para razonar y escalabilidad en tiempo de prueba. También analizamos proyectos de código abierto populares para la construcción de modelos de razonamiento grandes, y concluimos con desafíos abiertos y futuras direcciones de investigación.
La tokenización visual a través del autoencodificación potencia los modelos generativos de imágenes y videos de última generación al comprimir píxeles en un espacio latente. Aunque escalar generadores basados en Transformadores ha sido fundamental para los avances recientes, el componente tokenizador en sí rara vez se escala, dejando preguntas abiertas sobre cómo las elecciones de diseño del autoencoder influyen tanto en su objetivo de reconstrucción como en el rendimiento generativo posterior. Nuestro trabajo tiene como objetivo llevar a cabo una exploración de la escala en los autoencoders para llenar este vacío. Para facilitar esta exploración, reemplazamos la típica estructura convolucional con una arquitectura mejorada de Vision Transformer para la Tokenización (ViTok). Entrenamos ViTok en conjuntos de datos de imágenes y videos a gran escala que superan con creces a ImageNet-1K, eliminando las restricciones de datos en la escala del tokenizador. Primero estudiamos cómo afecta la escala del cuello de botella del autoencoder tanto a la reconstrucción como a la generación, y encontramos que si bien está altamente correlacionado con la reconstrucción, su relación con la generación es más compleja. A continuación, exploramos el efecto de escalar por separado el codificador y el decodificador de los autoencoders en el rendimiento de reconstrucción y generación. Crucialmente, descubrimos que escalar el codificador aporta ganancias mínimas tanto en la reconstrucción como en la generación, mientras que escalar el decodificador impulsa la reconstrucción, pero los beneficios para la generación son mixtos. Basándonos en nuestra exploración, diseñamos ViTok como un autoencoder ligero que logra un rendimiento competitivo con los autoencoders de última generación en tareas de reconstrucción de ImageNet-1K y COCO (256p y 512p), superando a los autoencoders existentes en la reconstrucción de videos de 16 fotogramas a 128p para UCF-101, todo con 2-5 veces menos FLOPs. Al integrarse con Transformadores de Difusión, ViTok demuestra un rendimiento competitivo en la generación de imágenes para ImageNet-1K y establece nuevos puntos de referencia de última generación para la generación de videos condicionados por clase en UCF-101.
La generación de video mediante IA está experimentando una revolución, con la calidad y realismo avanzando rápidamente. Estos avances han dado lugar a un apasionado debate científico: ¿Aprenden los modelos de video "modelos del mundo" que descubren leyes de la física, o, por el contrario, son simplemente sofisticados predictores de píxeles que logran realismo visual sin comprender los principios físicos de la realidad? Abordamos esta cuestión desarrollando Physics-IQ, un conjunto de datos de referencia exhaustivo que solo puede resolverse adquiriendo un profundo entendimiento de varios principios físicos, como la dinámica de fluidos, óptica, mecánica de sólidos, magnetismo y termodinámica. Descubrimos que, en una variedad de modelos actuales (Sora, Runway, Pika, Lumiere, Stable Video Diffusion y VideoPoet), la comprensión física es severamente limitada y no está relacionada con el realismo visual. Al mismo tiempo, algunos casos de prueba ya pueden resolverse con éxito. Esto indica que adquirir ciertos principios físicos solo a través de la observación puede ser posible, pero persisten desafíos significativos. Aunque esperamos avances rápidos en el futuro, nuestro trabajo demuestra que el realismo visual no implica comprensión física. Nuestra página del proyecto se encuentra en https://physics-iq.github.io; el código en https://github.com/google-deepmind/physics-IQ-benchmark.
Los modelos de secuencia autoregresivos, como las políticas de visión-lenguaje basadas en Transformadores, pueden ser tremendamente efectivos para capturar comportamientos robóticos complejos y generalizables. Sin embargo, dichos modelos nos obligan a elegir una tokenización de nuestras señales de acción continuas, lo que determina cómo los símbolos discretos predichos por el modelo se asignan a acciones robóticas continuas. Encontramos que los enfoques actuales para la tokenización de acciones de robots, basados en esquemas de particionamiento simples por dimensión y por paso de tiempo, generalmente tienen un rendimiento deficiente al aprender habilidades diestras a partir de datos de robot de alta frecuencia. Para abordar este desafío, proponemos un nuevo esquema de tokenización de acciones de robots basado en la transformada discreta del coseno. Nuestro enfoque de tokenización, Tokenización de Secuencia de Acción en el Espacio de Frecuencia (FAST), nos permite entrenar VLAs autoregresivos para tareas altamente diestras y de alta frecuencia donde los métodos de discretización estándar fallan por completo. Basándonos en FAST, lanzamos FAST+, un tokenizador de acciones de robot universal, entrenado en 1M de trayectorias de acciones de robot reales. Puede ser utilizado como un tokenizador de caja negra para una amplia gama de secuencias de acciones de robot, con espacios de acción diversos y frecuencias de control. Finalmente, demostramos que, cuando se combina con el VLA pi0, nuestro método puede escalar para entrenar con 10k horas de datos de robot y igualar el rendimiento de los VLAs de difusión, al tiempo que reduce el tiempo de entrenamiento hasta en un 5x.
Presentamos SynthLight, un modelo de difusión para el reiluminado de retratos. Nuestro enfoque enmarca el reiluminado de imágenes como un problema de renderización, donde los píxeles se transforman en respuesta a cambios en las condiciones de iluminación ambiental. Utilizando un motor de renderizado basado en física, sintetizamos un conjunto de datos para simular esta transformación condicionada por la iluminación con activos de cabeza en 3D bajo iluminaciones variables. Proponemos dos estrategias de entrenamiento e inferencia para cerrar la brecha entre los dominios de imágenes sintéticas y reales: (1) entrenamiento multitarea que aprovecha retratos humanos reales sin etiquetas de iluminación; (2) un procedimiento de muestreo de difusión en tiempo de inferencia basado en orientación sin clasificador que aprovecha el retrato de entrada para preservar mejor los detalles. Nuestro método se generaliza a diversas fotografías reales y produce efectos de iluminación realistas, incluidos reflejos especulares y sombras proyectadas, mientras preserva la identidad del sujeto. Nuestros experimentos cuantitativos en datos de Light Stage demuestran resultados comparables a los métodos de reiluminado de última generación. Nuestros resultados cualitativos en imágenes en entornos naturales muestran efectos de iluminación ricos y sin precedentes. Página del proyecto: https://vrroom.github.io/synthlight/
La consulta médica en línea (OMC) restringe a los médicos a recopilar información del paciente únicamente a través de preguntas, lo que hace que el ya complejo proceso de toma de decisiones secuencial de diagnóstico sea aún más desafiante. Recientemente, el rápido avance de los grandes modelos de lenguaje ha demostrado un potencial significativo para transformar la OMC. Sin embargo, la mayoría de los estudios se han centrado principalmente en mejorar la precisión diagnóstica bajo condiciones de información relativamente suficiente, prestando poca atención a la fase de "consulta" del proceso de consulta. Esta falta de enfoque ha dejado insuficientemente explorada la relación entre "consulta" y "diagnóstico". En este documento, primero extraemos estrategias de interacción reales de pacientes a partir de conversaciones auténticas entre médicos y pacientes, y utilizamos estas estrategias para guiar el entrenamiento de un simulador de pacientes que refleja de cerca el comportamiento del mundo real. Al introducir registros médicos en nuestro simulador de pacientes para simular respuestas de pacientes, realizamos experimentos extensos para explorar la relación entre "consulta" y "diagnóstico" en el proceso de consulta. Los resultados experimentales demuestran que la consulta y el diagnóstico siguen la ley de Liebig: una baja calidad en la consulta limita la efectividad del diagnóstico, independientemente de la capacidad diagnóstica, y viceversa. Además, los experimentos revelan diferencias significativas en el rendimiento de la consulta de varios modelos. Para investigar este fenómeno, categorizamos el proceso de consulta en cuatro tipos: (1) consulta sobre el motivo principal; (2) especificación de síntomas conocidos; (3) consulta sobre síntomas acompañantes; y (4) recopilación de antecedentes familiares o médicos. Analizamos la distribución de consultas en los cuatro tipos para diferentes modelos para explorar las razones detrás de sus diferencias significativas de rendimiento. Planeamos hacer públicos los pesos y el código relacionado de nuestro simulador de pacientes en https://github.com/LIO-H-ZEN/PatientSimulator.
La síntesis de activos 3D de alta calidad a partir de entradas textuales o visuales se ha convertido en un objetivo central en la modelización generativa moderna. A pesar de la proliferación de algoritmos de generación 3D, a menudo se enfrentan a desafíos como la inconsistencia multi-vista, tiempos de generación lentos, baja fidelidad y problemas de reconstrucción de superficies. Aunque algunos estudios han abordado algunos de estos problemas, una solución integral sigue siendo esquiva. En este documento, presentamos CaPa, un marco de trabajo de tallado y pintura que genera activos 3D de alta fidelidad de manera eficiente. CaPa emplea un proceso de dos etapas, desacoplando la generación de geometría de la síntesis de texturas. Inicialmente, un modelo de difusión latente 3D genera geometría guiada por entradas multi-vista, asegurando consistencia estructural en todas las perspectivas. Posteriormente, aprovechando una Atención Espacialmente Desacoplada novedosa y agnóstica al modelo, el marco sintetiza texturas de alta resolución (de hasta 4K) para una geometría dada. Además, proponemos un algoritmo de rellenado de oclusión consciente de 3D que completa regiones sin textura, dando como resultado resultados cohesivos en todo el modelo. Esta secuencia de procesos genera activos 3D de alta calidad en menos de 30 segundos, proporcionando salidas listas para su uso en aplicaciones comerciales. Los resultados experimentales demuestran que CaPa destaca tanto en fidelidad de textura como en estabilidad geométrica, estableciendo un nuevo estándar para la generación práctica y escalable de activos 3D.
Recientemente, los modelos generativos a gran escala han demostrado capacidades sobresalientes en la generación de texto a imagen. Sin embargo, generar imágenes personalizadas de alta fidelidad con sujetos específicos sigue presentando desafíos, especialmente en casos que involucran múltiples sujetos. En este documento, proponemos AnyStory, un enfoque unificado para la generación de sujetos personalizados. AnyStory no solo logra una personalización de alta fidelidad para sujetos individuales, sino también para múltiples sujetos, sin sacrificar la fidelidad del sujeto. Específicamente, AnyStory modela el problema de personalización de sujetos de manera "codificar-y-enrutar". En el paso de codificación, AnyStory utiliza un codificador de imagen universal y potente, es decir, ReferenceNet, en conjunto con el codificador de visión CLIP para lograr una codificación de alta fidelidad de las características del sujeto. En el paso de enrutamiento, AnyStory utiliza un enrutador de sujetos consciente de la instancia desacoplado para percibir y predecir con precisión la ubicación potencial del sujeto correspondiente en el espacio latente, y guiar la inyección de condiciones del sujeto. Los detallados resultados experimentales demuestran el excelente rendimiento de nuestro método en la retención de detalles del sujeto, alineación de descripciones de texto y personalización para múltiples sujetos. La página del proyecto se encuentra en https://aigcdesigngroup.github.io/AnyStory/.
El reciente aumento en la popularidad de los grandes modelos de lenguaje ha impulsado el desarrollo de extensos conjuntos de datos de código necesarios para entrenarlos. Esto ha dejado un código limitado disponible para la recopilación y uso en la investigación posterior de comportamientos específicos, o la evaluación de grandes modelos de lenguaje sin sufrir contaminación de datos. Para abordar este problema, lanzamos The Heap, un extenso conjunto de datos multilingüe que abarca 57 lenguajes de programación que ha sido deduplicado con respecto a otros conjuntos de datos abiertos de código, lo que permite a los investigadores llevar a cabo evaluaciones justas de grandes modelos de lenguaje sin una sobrecarga significativa de limpieza de datos.
Los sistemas de IA generativa como los modelos base (FMs) deben alinearse bien con los valores humanos para garantizar que su comportamiento sea útil y confiable. Si bien el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) ha demostrado ser prometedor para optimizar el rendimiento del modelo utilizando juicios humanos, los conductos de RLHF existentes dependen predominantemente de retroalimentación inmediata, lo que puede no reflejar con precisión el impacto a largo plazo de una interacción en la utilidad de los usuarios. Demostramos que la retroalimentación basada en estimaciones de previsión de evaluadores sobre las consecuencias a largo plazo induce sistemáticamente dinámicas de la Ley de Goodhart, incentivando comportamientos desalineados como la adulación y el engaño y degradando en última instancia los resultados para el usuario. Para mitigar esto, proponemos desvincular la evaluación de la predicción al reenfocar el RLHF en retroalimentación retrospectiva. Nuestro análisis teórico revela que condicionar la retroalimentación del evaluador a observaciones a largo plazo mitiga el desalineamiento y mejora la utilidad humana esperada, incluso cuando estas observaciones son simuladas por el propio sistema de IA. Para aprovechar esta idea en un algoritmo práctico de alineación, presentamos el Aprendizaje por Refuerzo a partir de Simulación Retrospectiva (RLHS), que primero simula consecuencias plausibles y luego solicita retroalimentación para evaluar qué comportamientos fueron realmente beneficiosos a posteriori. Aplicamos RLHS a dos métodos de optimización de preferencias ampliamente utilizados, tanto en línea como fuera de línea: la Optimización de Política Proximal (PPO) y la Optimización Directa de Preferencias (DPO), y demostramos empíricamente que el desalineamiento se reduce significativamente con ambos métodos. A través de un estudio en línea con usuarios humanos, mostramos que RLHS supera consistentemente a RLHF en ayudar a los usuarios a alcanzar sus objetivos y obtiene calificaciones de satisfacción más altas, a pesar de ser entrenado únicamente con retroalimentación simulada a posteriori. Estos resultados subrayan la importancia de centrarse en las consecuencias a largo plazo, incluso las simuladas, para mitigar el desalineamiento en RLHF.