Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos generativos têm tido impactos significativos em vários domínios, em grande parte devido à sua capacidade de escalar durante o treinamento aumentando dados, recursos computacionais e tamanho do modelo, um fenômeno caracterizado pelas leis de escala. Pesquisas recentes começaram a explorar o comportamento de escalonamento no tempo de inferência em Modelos de Linguagem Grandes (LLMs), revelando como o desempenho pode melhorar ainda mais com computação adicional durante a inferência. Ao contrário dos LLMs, os modelos de difusão possuem inerentemente a flexibilidade de ajustar a computação no tempo de inferência através do número de etapas de desruído, embora os ganhos de desempenho geralmente se estabilizem após algumas dezenas. Neste trabalho, exploramos o comportamento de escalonamento no tempo de inferência de modelos de difusão além do aumento de etapas de desruído e investigamos como o desempenho de geração pode melhorar ainda mais com maior computação. Especificamente, consideramos um problema de busca com o objetivo de identificar melhores ruídos para o processo de amostragem de difusão. Estruturamos o espaço de design ao longo de dois eixos: os verificadores usados para fornecer feedback e os algoritmos usados para encontrar melhores candidatos a ruído. Através de experimentos extensivos em benchmarks de geração de imagens condicionadas por classe e texto, nossas descobertas revelam que o aumento de computação no tempo de inferência leva a melhorias substanciais na qualidade das amostras geradas por modelos de difusão, e com a natureza complicada das imagens, combinações dos componentes no framework podem ser escolhidas especificamente para se adequarem a diferentes cenários de aplicação.
A escrita por máquina com grandes modelos de linguagem frequentemente depende da geração aumentada por recuperação. No entanto, essas abordagens permanecem limitadas dentro dos limites do escopo predefinido do modelo, o que restringe a geração de conteúdo com informações ricas. Especificamente, as informações recuperadas de forma convencional tendem a carecer de profundidade, utilidade e sofrem de redundância, o que impacta negativamente a qualidade dos artigos gerados, resultando em saídas superficiais, repetitivas e não originais. Para abordar esses problemas, propomos o OmniThink, um framework de escrita por máquina que emula o processo humano de expansão e reflexão iterativa. A ideia central por trás do OmniThink é simular o comportamento cognitivo dos aprendizes à medida que aprofundam progressivamente seu conhecimento sobre os tópicos. Resultados experimentais demonstram que o OmniThink melhora a densidade de conhecimento dos artigos gerados sem comprometer métricas como coerência e profundidade. Avaliações humanas e feedback de especialistas destacam ainda mais o potencial do OmniThink para lidar com desafios do mundo real na geração de artigos longos.
A linguagem tem sido concebida como uma ferramenta essencial para o raciocínio humano. A ascensão dos Modelos de Linguagem de Grande Escala (LLMs) despertou um interesse significativo na pesquisa sobre como aproveitar esses modelos para lidar com tarefas complexas de raciocínio. Os pesquisadores avançaram além da simples geração autoregressiva de tokens, introduzindo o conceito de "pensamento" - uma sequência de tokens que representam etapas intermediárias no processo de raciocínio. Esse paradigma inovador permite que os LLMs imitem processos complexos de raciocínio humano, como busca em árvore e pensamento reflexivo. Recentemente, uma tendência emergente de aprendizado para raciocinar tem aplicado o aprendizado por reforço (RL) para treinar LLMs a dominar processos de raciocínio. Essa abordagem possibilita a geração automática de trajetórias de raciocínio de alta qualidade por meio de algoritmos de busca por tentativa e erro, expandindo significativamente a capacidade de raciocínio dos LLMs ao fornecer substancialmente mais dados de treinamento. Além disso, estudos recentes demonstram que incentivar os LLMs a "pensar" com mais tokens durante a inferência no momento do teste pode aumentar significativamente a precisão do raciocínio. Portanto, a combinação de escalonamento no treinamento e no teste mostra uma nova fronteira de pesquisa - um caminho em direção ao Modelo de Raciocínio de Grande Escala. A introdução da série o1 da OpenAI marca um marco significativo nessa direção de pesquisa. Nesta pesquisa, apresentamos uma revisão abrangente dos avanços recentes no raciocínio dos LLMs. Começamos introduzindo o contexto fundamental dos LLMs e depois exploramos os principais componentes técnicos que impulsionam o desenvolvimento de modelos de raciocínio grandes, com foco na construção automatizada de dados, técnicas de aprendizado para raciocinar e escalonamento no momento do teste. Também analisamos projetos de código aberto populares na construção de modelos de raciocínio grandes e concluímos com desafios em aberto e direções futuras de pesquisa.
A tokenização visual via autoencoders capacita modelos gerativos de imagem e vídeo de última geração comprimindo pixels em um espaço latente. Embora a escalabilidade de geradores baseados em Transformers tenha sido central para avanços recentes, o componente tokenizador em si raramente é escalado, deixando questões em aberto sobre como as escolhas de design do autoencoder influenciam tanto seu objetivo de reconstrução quanto o desempenho gerativo subsequente. Nosso trabalho tem como objetivo realizar uma exploração da escalabilidade em autoencoders para preencher essa lacuna. Para facilitar essa exploração, substituímos a espinha dorsal convolucional típica por uma arquitetura aprimorada de Vision Transformer para Tokenização (ViTok). Treinamos o ViTok em conjuntos de dados de imagem e vídeo em larga escala que excedem em muito o ImageNet-1K, removendo as restrições de dados na escalabilidade do tokenizador. Primeiramente, estudamos como a escalabilidade do gargalo do autoencoder afeta tanto a reconstrução quanto a geração - e descobrimos que, embora esteja altamente correlacionada com a reconstrução, sua relação com a geração é mais complexa. Em seguida, exploramos o efeito de escalar separadamente o codificador e o decodificador dos autoencoders no desempenho de reconstrução e geração. Crucialmente, descobrimos que escalar o codificador resulta em ganhos mínimos tanto para a reconstrução quanto para a geração, enquanto escalar o decodificador impulsiona a reconstrução, mas os benefícios para a geração são mistos. Com base em nossa exploração, projetamos o ViTok como um autoencoder leve que alcança desempenho competitivo com autoencoders de última geração em tarefas de reconstrução do ImageNet-1K e COCO (256p e 512p), superando os autoencoders existentes na reconstrução de vídeo de 16 quadros em 128p para UCF-101, tudo com 2-5 vezes menos FLOPs. Quando integrado com os Transformadores de Difusão, o ViTok demonstra desempenho competitivo na geração de imagens para o ImageNet-1K e estabelece novos benchmarks de última geração para a geração de vídeo condicional de classe no UCF-101.
A geração de vídeo por IA está passando por uma revolução, com qualidade e realismo avançando rapidamente. Esses avanços levaram a um debate científico apaixonado: Os modelos de vídeo aprendem "modelos do mundo" que descobrem leis da física -- ou, alternativamente, são apenas sofisticados preditores de pixels que alcançam realismo visual sem compreender os princípios físicos da realidade? Abordamos essa questão desenvolvendo Physics-IQ, um conjunto abrangente de dados de referência que só pode ser resolvido adquirindo um entendimento profundo de vários princípios físicos, como dinâmica de fluidos, óptica, mecânica dos sólidos, magnetismo e termodinâmica. Descobrimos que, em uma variedade de modelos atuais (Sora, Runway, Pika, Lumiere, Stable Video Diffusion e VideoPoet), o entendimento físico é severamente limitado e não está relacionado ao realismo visual. Ao mesmo tempo, alguns casos de teste já podem ser resolvidos com sucesso. Isso indica que adquirir certos princípios físicos apenas por observação pode ser possível, mas desafios significativos permanecem. Embora esperemos avanços rápidos no futuro, nosso trabalho demonstra que o realismo visual não implica em entendimento físico. Nossa página do projeto está em https://physics-iq.github.io; código em https://github.com/google-deepmind/physics-IQ-benchmark.
Modelos de sequência autoregressivos, como políticas de visão-linguagem baseadas em Transformadores, podem ser tremendamente eficazes para capturar comportamentos robóticos complexos e generalizáveis. No entanto, tais modelos exigem que escolhamos uma tokenização de nossos sinais de ação contínuos, o que determina como os símbolos discretos previstos pelo modelo se mapeiam para ações contínuas do robô. Observamos que abordagens atuais para tokenização de ações de robô, baseadas em esquemas simples de agrupamento por dimensão e por etapa de tempo, geralmente têm desempenho ruim ao aprender habilidades habilidosas a partir de dados de robô de alta frequência. Para enfrentar esse desafio, propomos um novo esquema de tokenização baseado em compressão para ações de robô, com base na transformada discreta do cosseno. Nossa abordagem de tokenização, Tokenização de Sequência de Ação no Espaço de Frequência (FAST), nos permite treinar VLAs autoregressivos para tarefas altamente habilidosas e de alta frequência, onde métodos de discretização padrão falham completamente. Com base no FAST, lançamos o FAST+, um tokenizador de ações de robô universal, treinado em 1M de trajetórias de ação de robô reais. Pode ser usado como um tokenizador de caixa-preta para uma ampla gama de sequências de ação de robô, com espaços de ação diversos e frequências de controle. Por fim, demonstramos que, quando combinado com o VLA pi0, nosso método pode escalar para treinamento em 10 mil horas de dados de robô e igualar o desempenho dos VLAs de difusão, reduzindo o tempo de treinamento em até 5 vezes.
Apresentamos o SynthLight, um modelo de difusão para relighting de retratos. Nossa abordagem enquadra o relighting de imagens como um problema de rerenderização, onde os pixels são transformados em resposta a mudanças nas condições de iluminação ambiental. Utilizando um mecanismo de renderização baseado em física, sintetizamos um conjunto de dados para simular essa transformação condicionada pela iluminação com ativos de cabeça 3D sob iluminação variada. Propomos duas estratégias de treinamento e inferência para preencher a lacuna entre os domínios de imagem sintética e real: (1) treinamento multi-tarefa que aproveita retratos humanos reais sem rótulos de iluminação; (2) um procedimento de amostragem de difusão no tempo de inferência com base em orientação livre de classificador que aproveita o retrato de entrada para preservar melhor os detalhes. Nosso método generaliza para diversas fotografias reais e produz efeitos realistas de iluminação, incluindo destaques especulares e sombras projetadas, preservando a identidade do sujeito. Nossos experimentos quantitativos nos dados do Light Stage demonstram resultados comparáveis aos métodos de relighting de ponta. Nossos resultados qualitativos em imagens do mundo real mostram efeitos de iluminação ricos e sem precedentes. Página do Projeto: https://vrroom.github.io/synthlight/
A consulta médica online (CMO) restringe os médicos a coletar informações dos pacientes exclusivamente por meio de perguntas, tornando o processo de tomada de decisão sequencial do diagnóstico, que já é complexo, ainda mais desafiador. Recentemente, o avanço rápido de grandes modelos de linguagem demonstrou um potencial significativo para transformar a CMO. No entanto, a maioria dos estudos tem se concentrado principalmente em melhorar a precisão diagnóstica em condições de informações relativamente suficientes, enquanto presta atenção limitada à fase de "pergunta" do processo de consulta. Essa falta de foco deixou a relação entre "pergunta" e "diagnóstico" insuficientemente explorada. Neste artigo, extraímos estratégias reais de interação do paciente a partir de conversas autênticas entre médicos e pacientes e usamos essas estratégias para orientar o treinamento de um simulador de paciente que reproduz de perto o comportamento do mundo real. Ao inserir registros médicos em nosso simulador de paciente para simular respostas do paciente, realizamos experimentos extensivos para explorar a relação entre "pergunta" e "diagnóstico" no processo de consulta. Os resultados experimentais demonstram que a pergunta e o diagnóstico seguem a Lei de Liebig: a baixa qualidade da pergunta limita a eficácia do diagnóstico, independentemente da capacidade diagnóstica, e vice-versa. Além disso, os experimentos revelam diferenças significativas no desempenho da pergunta de vários modelos. Para investigar esse fenômeno, categorizamos o processo de pergunta em quatro tipos: (1) pergunta sobre queixa principal; (2) especificação de sintomas conhecidos; (3) pergunta sobre sintomas acompanhantes; e (4) coleta de histórico familiar ou médico. Analisamos a distribuição de perguntas entre os quatro tipos para diferentes modelos a fim de explorar as razões por trás de suas diferenças significativas de desempenho. Planejamos disponibilizar os pesos e o código relacionado do nosso simulador de paciente em código aberto em https://github.com/LIO-H-ZEN/PatientSimulator.
A síntese de ativos 3D de alta qualidade a partir de entradas textuais ou visuais tornou-se um objetivo central na modelagem generativa moderna. Apesar da proliferação de algoritmos de geração 3D, eles frequentemente lidam com desafios como inconsistência multi-visual, tempos de geração lentos, baixa fidelidade e problemas de reconstrução de superfície. Embora alguns estudos tenham abordado algumas dessas questões, uma solução abrangente ainda permanece elusiva. Neste artigo, apresentamos CaPa, um framework de esculpir e pintar que gera ativos 3D de alta fidelidade de forma eficiente. CaPa emprega um processo de duas etapas, desacoplando a geração de geometria da síntese de textura. Inicialmente, um modelo de difusão latente 3D gera geometria guiada por entradas multi-visual, garantindo consistência estrutural em diferentes perspectivas. Posteriormente, aproveitando uma nova e model-agnóstica Atenção Espacialmente Desacoplada, o framework sintetiza texturas de alta resolução (até 4K) para uma determinada geometria. Além disso, propomos um algoritmo de preenchimento de oclusão consciente de 3D que preenche regiões sem textura, resultando em resultados coesos em todo o modelo. Esta sequência gera ativos 3D de alta qualidade em menos de 30 segundos, fornecendo saídas prontas para aplicações comerciais. Resultados experimentais demonstram que CaPa se destaca tanto na fidelidade de textura quanto na estabilidade geométrica, estabelecendo um novo padrão para geração prática e escalável de ativos 3D.
Recentemente, modelos generativos em larga escala têm demonstrado capacidades excepcionais na geração de texto para imagem. No entanto, gerar imagens personalizadas de alta fidelidade com assuntos específicos ainda apresenta desafios, especialmente em casos envolvendo múltiplos assuntos. Neste artigo, propomos AnyStory, uma abordagem unificada para geração de assuntos personalizados. AnyStory não apenas alcança personalização de alta fidelidade para assuntos individuais, mas também para múltiplos assuntos, sem sacrificar a fidelidade do assunto. Especificamente, AnyStory modela o problema de personalização de assunto de forma "codificar-então-rotear". Na etapa de codificação, AnyStory utiliza um codificador de imagem universal e poderoso, ou seja, ReferenceNet, em conjunto com o codificador de visão CLIP para alcançar uma codificação de alta fidelidade das características do assunto. Na etapa de roteamento, AnyStory utiliza um roteador de assunto consciente da instância desacoplado para perceber e prever com precisão a localização potencial do assunto correspondente no espaço latente e guiar a injeção das condições do assunto. Resultados experimentais detalhados demonstram o excelente desempenho de nosso método em reter detalhes do assunto, alinhar descrições de texto e personalizar para múltiplos assuntos. A página do projeto está em https://aigcdesigngroup.github.io/AnyStory/.
O recente aumento na popularidade de grandes modelos de linguagem tem impulsionado o desenvolvimento de extensos conjuntos de dados de código necessários para treiná-los. Isso tem deixado um código limitado disponível para coleta e uso na investigação subsequente de comportamentos específicos, ou avaliação de grandes modelos de linguagem sem sofrer contaminação de dados. Para resolver esse problema, lançamos The Heap, um grande conjunto de dados multilíngue que abrange 57 linguagens de programação e que foi deduplicado em relação a outros conjuntos de dados abertos de código, permitindo que os pesquisadores realizem avaliações justas de grandes modelos de linguagem sem uma sobrecarga significativa de limpeza de dados.
Sistemas de IA generativa como modelos fundamentais (FMs) devem estar alinhados com os valores humanos para garantir que seu comportamento seja útil e confiável. Embora o Aprendizado por Reforço a partir do Feedback Humano (RLHF) tenha mostrado promessa para otimizar o desempenho do modelo usando julgamentos humanos, os pipelines de RLHF existentes predominantemente dependem de feedback imediato, o que pode falhar em refletir com precisão o impacto subsequente de uma interação na utilidade dos usuários. Demonstramos que o feedback baseado em estimativas de previsão dos avaliadores sobre as consequências futuras induz sistematicamente dinâmicas da Lei de Goodhart, incentivando comportamentos desalinhados como adulação e decepção e, em última instância, degradando os resultados dos usuários. Para mitigar isso, propomos desvincular a avaliação da previsão, concentrando o RLHF no feedback retrospectivo. Nossa análise teórica revela que condicionar o feedback do avaliador às observações futuras atenua o desalinhamento e melhora a utilidade humana esperada, mesmo quando essas observações são simuladas pelo próprio sistema de IA. Para aproveitar essa percepção em um algoritmo prático de alinhamento, introduzimos o Aprendizado por Reforço a partir da Simulação Retrospectiva (RLHS), que primeiro simula consequências plausíveis e depois solicita feedback para avaliar quais comportamentos foram genuinamente benéficos em retrospecto. Aplicamos o RLHS a dois métodos amplamente utilizados de otimização de preferências online e offline - Otimização de Política Próxima (PPO) e Otimização Direta de Preferências (DPO) - e mostramos empiricamente que o desalinhamento é significativamente reduzido com ambos os métodos. Por meio de um estudo humano online, demonstramos que o RLHS supera consistentemente o RLHF em ajudar os usuários a alcançar seus objetivos e recebe classificações de satisfação mais altas, apesar de ser treinado exclusivamente com feedback retrospectivo simulado. Esses resultados destacam a importância de focar nas consequências de longo prazo, mesmo que simuladas, para mitigar o desalinhamento no RLHF.