Artigos de pesquisa em IA selecionados diariamente com traduções
Estudamos uma arquitetura de modelo de linguagem inovadora capaz de escalar a computação no momento do teste por meio de raciocínio implícito no espaço latente. Nosso modelo funciona iterando um bloco recorrente, desenrolando-se assim para profundidades arbitrárias no momento do teste. Isso contrasta com os modelos de raciocínio convencionais que aumentam a computação produzindo mais tokens. Ao contrário das abordagens baseadas em encadeamento de pensamentos, nossa abordagem não requer nenhum dado de treinamento especializado, pode trabalhar com janelas de contexto pequenas e pode capturar tipos de raciocínio que não são facilmente representados em palavras. Escalonamos um modelo de prova de conceito para 3,5 bilhões de parâmetros e 800 bilhões de tokens. Mostramos que o modelo resultante pode melhorar seu desempenho em benchmarks de raciocínio, às vezes de forma dramática, até uma carga de computação equivalente a 50 bilhões de parâmetros.
Este artigo apresenta Goku, uma família de modelos de geração conjunta de imagens e vídeos de última geração que utilizam Transformadores de fluxo retificado para alcançar um desempenho líder na indústria. Detalhamos os elementos fundamentais que possibilitam a geração visual de alta qualidade, incluindo o pipeline de curadoria de dados, o design da arquitetura do modelo, a formulação de fluxo e a infraestrutura avançada para treinamento eficiente e robusto em larga escala. Os modelos Goku demonstram desempenho superior em avaliações qualitativas e quantitativas, estabelecendo novos padrões em importantes tarefas. Especificamente, Goku alcança 0,76 no GenEval e 83,65 no DPG-Bench para geração de texto para imagem, e 84,85 no VBench para tarefas de texto para vídeo. Acreditamos que este trabalho fornece insights valiosos e avanços práticos para a comunidade de pesquisa no desenvolvimento de modelos de geração conjunta de imagens e vídeos.
Embora a Incorporação de Posição Rotativa (RoPE) e suas variantes sejam amplamente adotadas por suas capacidades de longo contexto, a extensão da RoPE 1D para vídeos, com sua estrutura espaço-temporal complexa, permanece um desafio em aberto. Este trabalho introduz inicialmente uma análise abrangente que identifica quatro características essenciais para a adaptação eficaz da RoPE para vídeos, as quais não foram totalmente consideradas em trabalhos anteriores. Como parte de nossa análise, introduzimos uma tarefa desafiadora V-NIAH-D (Agulha em um Palheiro Visual com Distratores), que adiciona distratores periódicos ao V-NIAH. A tarefa V-NIAH-D demonstra que variantes anteriores da RoPE, que carecem de alocação temporal apropriada, são facilmente enganadas por distratores. Com base em nossa análise, introduzimos o VideoRoPE, com uma estrutura 3D projetada para preservar as relações espaço-temporais. O VideoRoPE apresenta alocação temporal de baixa frequência para mitigar oscilações periódicas, um layout diagonal para manter a simetria espacial e espaçamento temporal ajustável para desacoplar a indexação temporal e espacial. O VideoRoPE supera consistentemente variantes anteriores da RoPE em diversas tarefas subsequentes, como recuperação de vídeos longos, compreensão de vídeos e alucinação de vídeos. Nosso código estará disponível em https://github.com/Wiselnn570/VideoRoPE.
Os Transformadores de Difusão (DiTs) com atenção total em 3D são o estado-da-arte na geração de vídeos, mas sofrem com custos computacionais proibitivos - ao gerar um vídeo de 5 segundos em 720P, a atenção sozinha leva 800 dos 945 segundos do tempo total de inferência. Este artigo introduz a atenção de mosaico deslizante (STA) para lidar com esse desafio. O STA aproveita a observação de que os escores de atenção em modelos de difusão de vídeo pré-treinados se concentram predominantemente em janelas 3D localizadas. Ao deslizar e atender sobre a região espacial-temporal local, o STA elimina a redundância da atenção total. Ao contrário da atenção tradicional de janela deslizante por token (SWA), o STA opera azulejo por azulejo com um design de janela deslizante inovador, preservando a expressividade ao mesmo tempo que é eficiente em hardware. Com otimizações cuidadosas em nível de kernel, o STA oferece a primeira implementação eficiente de atenção em janela deslizante 2D/3D, alcançando 58,79% de MFU. Precisamente, o STA acelera a atenção em 2,8-17x em relação ao FlashAttention-2 (FA2) e 1,6-10x em relação ao FlashAttention-3 (FA3). No principal DiT de vídeo, HunyuanVideo, o STA reduz a latência de ponta a ponta de 945s (FA3) para 685s sem degradação de qualidade, sem necessidade de treinamento. Habilitar o ajuste fino reduz ainda mais a latência para 268s com apenas uma queda de 0,09% no VBench.
Uma abordagem para reduzir os altos custos dos grandes modelos de linguagem (LLMs) é o uso de representações quantizadas ou esparsas para treinamento ou implantação. Embora os métodos de compressão pós-treinamento sejam muito populares, a questão de obter modelos comprimidos ainda mais precisos por meio do treinamento direto sobre tais representações, ou seja, Treinamento Consciente de Quantização (QAT), ainda está em aberto: por exemplo, um estudo recente (arXiv:2411.04330v2) determinou a largura de bits "ótima" na qual os modelos podem ser treinados usando QAT, mantendo a precisão competitiva com a precisão padrão FP16/BF16, em 8-bits para pesos e ativações. Avançamos este estado-da-arte por meio de um novo método chamado QuEST, que é competitivo em Pareto com FP16, ou seja, fornece melhor precisão com tamanho de modelo menor, treinando modelos com pesos e ativações em 4-bits ou menos. Além disso, o QuEST permite treinamento estável com pesos e ativações de 1-bit. O QuEST alcança isso melhorando dois aspectos-chave dos métodos QAT: (1) quantização precisa e rápida das distribuições (contínuas) de pesos e ativações por meio de normalização de Hadamard e ajuste MSE-ótimo; (2) um novo estimador de gradiente de confiança baseado na ideia de minimizar explicitamente o erro entre o gradiente ruidoso calculado sobre estados quantizados e o gradiente de precisão total "verdadeiro" (mas desconhecido). Experimentos em arquiteturas do tipo Llama mostram que o QuEST induz leis de escalonamento estáveis em toda a gama de precisões suportadas pelo hardware e pode ser estendido a representações esparsas. Fornecemos suporte de kernel GPU mostrando que os modelos produzidos pelo QuEST podem ser executados de forma eficiente. Nosso código está disponível em https://github.com/IST-DASLab/QuEST.
A inpainting de cena tridimensional é crucial para aplicações que vão desde realidade virtual até visualização arquitetônica, no entanto, os métodos existentes enfrentam dificuldades com consistência de visualização e precisão geométrica em cenas não limitadas a 360 graus. Apresentamos o AuraFusion360, um método inovador baseado em referências que permite a remoção de objetos e preenchimento de buracos de alta qualidade em cenas 3D representadas por Gaussian Splatting. Nossa abordagem introduz (1) geração de máscara não vista sensível à profundidade para identificação precisa de oclusão, (2) Difusão Adaptativa de Profundidade Guiada, um método de zero-shot para posicionamento inicial preciso sem necessidade de treinamento adicional, e (3) aprimoramento de detalhes baseado em SDEdit para coerência multi-visualização. Também apresentamos o 360-USID, o primeiro conjunto de dados abrangente para inpainting de cena não limitada a 360 graus com verdade terrestre. Experimentos extensivos demonstram que o AuraFusion360 supera significativamente os métodos existentes, alcançando qualidade perceptual superior ao mesmo tempo que mantém precisão geométrica em mudanças dramáticas de ponto de vista. Consulte nossa página do projeto para resultados em vídeo e o conjunto de dados em https://kkennethwu.github.io/aurafusion360/.
Os modelos de difusão DiT alcançaram grande sucesso na geração de texto para vídeo, aproveitando sua escalabilidade na capacidade do modelo e escala de dados. Alta fidelidade de conteúdo e movimento alinhados com prompts de texto, no entanto, frequentemente exigem grandes parâmetros de modelo e um número substancial de avaliações de funções (NFEs). Detalhes realistas e visualmente atraentes são tipicamente refletidos em saídas de alta resolução, ampliando ainda mais as demandas computacionais, especialmente para modelos DiT de estágio único. Para enfrentar esses desafios, propomos um novo framework de dois estágios, FlashVideo, que aloca estrategicamente a capacidade do modelo e NFEs entre os estágios para equilibrar a fidelidade e qualidade da geração. No primeiro estágio, a fidelidade do prompt é priorizada por meio de um processo de geração de baixa resolução utilizando grandes parâmetros e NFEs suficientes para aprimorar a eficiência computacional. O segundo estágio estabelece a correspondência de fluxo entre baixa e alta resoluções, gerando efetivamente detalhes finos com um mínimo de NFEs. Resultados quantitativos e visuais demonstram que o FlashVideo alcança geração de vídeo de alta resolução de última geração com eficiência computacional superior. Além disso, o design de dois estágios permite aos usuários visualizar a saída inicial antes de se comprometer com a geração de resolução total, reduzindo significativamente os custos computacionais e os tempos de espera, além de aprimorar a viabilidade comercial.
A integração de mecanismos de pensamento lento em grandes modelos de linguagem (LLMs) oferece um caminho promissor para alcançar Reasoners AGI de Nível 2, como exemplificado por sistemas como o o1 da OpenAI. No entanto, vários desafios significativos ainda permanecem, incluindo o pensamento excessivo ineficiente e uma superdependência em modelos de recompensa auxiliares. Destacamos que essas limitações derivam da incapacidade dos LLMs de internalizar o processo de busca, um componente-chave do raciocínio eficaz. Um passo crítico para abordar essa questão é capacitar os LLMs a determinar autonomamente quando e onde retroceder, uma operação fundamental em algoritmos de busca tradicionais. Para isso, propomos um mecanismo de retrocesso automático que dota os LLMs da capacidade de retroceder tanto durante o treinamento quanto durante a inferência. Esse mecanismo não apenas aprimora a capacidade de raciocínio, mas também a eficiência, transformando processos de pensamento lento em pensamento rápido por meio do autoaperfeiçoamento. Avaliações empíricas demonstram que nossa proposta melhora significativamente as capacidades de raciocínio dos LLMs, alcançando um ganho de desempenho de mais de 40% em comparação com o método de ajuste fino supervisionado do caminho ótimo. Acreditamos que este estudo introduz um caminho novo e promissor para o desenvolvimento de Reasoners mais avançados e robustos.
A agência é a capacidade de um sistema direcionar resultados para um objetivo e é um tópico central de estudo em biologia, filosofia, ciência cognitiva e inteligência artificial. Determinar se um sistema exibe agência é uma questão notoriamente difícil: Dennett (1989), por exemplo, destaca o enigma de determinar quais princípios podem decidir se uma pedra, um termostato ou um robô possuem agência. Aqui abordamos esse enigma do ponto de vista do aprendizado por reforço, argumentando que a agência é fundamentalmente dependente do quadro de referência: Qualquer medição da agência de um sistema deve ser feita em relação a um quadro de referência. Apoiamos essa afirmação apresentando um argumento filosófico de que cada uma das propriedades essenciais da agência propostas por Barandiaran et al. (2009) e Moreno (2018) são elas mesmas dependentes do quadro de referência. Concluímos que qualquer ciência básica da agência requer dependência do quadro de referência e discutimos as implicações dessa afirmação para o aprendizado por reforço.
O rápido avanço dos grandes modelos de linguagem (LLMs) aumentou a necessidade de modelos de proteção para garantir o uso responsável, especialmente na detecção de conteúdo inseguro e ilegal. Embora existam dados substanciais de segurança em inglês, a modelagem multilíngue de proteção ainda é pouco explorada devido à escassez de dados de segurança de código aberto em outros idiomas. Para abordar essa lacuna, propomos um novo framework de Aprendizado por Reforço (RL) de dois jogadores, onde um gerador e um modelo de proteção coevoluem adversarialmente para produzir dados sintéticos de alta qualidade para treinamento multilíngue de proteção. Teoricamente formalizamos essa interação como um jogo de dois jogadores, demonstrando a convergência para um equilíbrio de Nash. Avaliações empíricas mostram que nosso modelo supera os modelos de ponta, alcançando quase 10% de melhoria em relação ao LlamaGuard3 (8B) em benchmarks em inglês, sendo 4,5 vezes mais rápido na inferência com um modelo significativamente menor (0,5B). Alcançamos avanços substanciais em tarefas de segurança multilíngue, especialmente ao lidar com o desequilíbrio para idiomas com menos recursos em um conjunto de dados reais coletados. Estudos de ablação enfatizam o papel crítico da geração de dados sintéticos na superação do desequilíbrio nos dados de código aberto entre o inglês e outros idiomas. Essas descobertas estabelecem uma abordagem escalável e eficiente para a geração de dados sintéticos, abrindo caminho para aprimorar modelos multilíngues de proteção para aprimorar a segurança dos LLMs. O código, modelo e dados serão disponibilizados em código aberto em https://github.com/yihedeng9/DuoGuard.
Resolver problemas complexos de planeamento requer que Grandes Modelos de Linguagem (GMLs) modelem explicitamente a transição de estado para evitar violações de regras, cumprir restrições e garantir a optimalidade - uma tarefa dificultada pela ambiguidade inerente da linguagem natural. Para superar essa ambiguidade, a Linguagem de Definição de Domínio de Planeamento (PDDL) é aproveitada como uma abstração de planeamento que permite descrições de estado precisas e formais. Com PDDL, podemos gerar um modelo de mundo simbólico onde algoritmos de busca clássicos, como A*, podem ser aplicados de forma transparente para encontrar planos ótimos. No entanto, a geração direta de domínios PDDL com os atuais GMLs continua a ser um desafio em aberto devido à falta de dados de treinamento PDDL. Para enfrentar esse desafio, propomos aumentar a computação em tempo de teste dos GMLs para aprimorar suas capacidades de raciocínio PDDL, permitindo assim a geração de domínios PDDL de alta qualidade. Especificamente, introduzimos um algoritmo simples, porém eficaz, que primeiro emprega uma abordagem de Melhor-de-N amostragem para melhorar a qualidade da solução inicial e depois refina a solução de forma detalhada com aprendizado de máquina verbalizado. Nosso método supera o o1-mini por uma margem considerável na geração de domínio PDDL, alcançando mais de 50% de taxa de sucesso em duas tarefas (ou seja, gerar domínios PDDL a partir de descrições em linguagem natural ou problemas PDDL). Isso é feito sem a necessidade de treinamento adicional. Ao aproveitar o PDDL como abstração de estado, nosso método é capaz de superar os métodos atuais de ponta em quase todas as tarefas de planeamento de nível de competição.
Grandes modelos de linguagem (LLMs) alcançam um desempenho impressionante escalando os parâmetros do modelo, mas isso acarreta em um significativo overhead de inferência. Redes feed-forward (FFNs), que dominam os parâmetros do LLM, exibem alta esparsidade de ativação em neurônios ocultos. Para explorar isso, os pesquisadores propuseram o uso de uma arquitetura de mistura de especialistas (MoE), onde apenas um subconjunto de parâmetros é ativado. No entanto, abordagens existentes frequentemente requerem extensos dados de treinamento e recursos, limitando sua praticidade. Propomos CMoE (Carved MoE), um novo framework para esculpir eficientemente modelos MoE a partir de modelos densos. CMoE alcança um desempenho notável através de um agrupamento eficiente de especialistas e uma adaptação leve. Primeiramente, os neurônios são agrupados em especialistas compartilhados e roteados com base nas taxas de ativação. Em seguida, construímos um mecanismo de roteamento sem treinamento do zero, incorporando um processo de roteamento diferenciável e balanceamento de carga. Utilizando dados modestos, CMoE produz um MoE bem projetado e utilizável a partir de um modelo denso de 7B em cinco minutos. Com um ajuste fino leve, ele alcança uma recuperação de alto desempenho em menos de uma hora. Disponibilizamos nosso código publicamente em https://github.com/JarvisPei/CMoE.
Apresentamos o On-device Sora, uma solução pioneira para geração de texto para vídeo baseada em difusão que opera de forma eficiente em dispositivos de nível de smartphone. Baseando-se no Open-Sora, o On-device Sora aplica três técnicas inovadoras para lidar com os desafios da geração de texto para vídeo baseada em difusão em dispositivos móveis com limitações de computação e memória. Primeiramente, o Salto Proporcional Linear (LPL) reduz os passos excessivos de remoção de ruído necessários na difusão de vídeo por meio de uma abordagem eficiente baseada em saltos. Em segundo lugar, a Fusão de Token de Dimensão Temporal (TDTM) minimiza a computação intensiva de processamento de token em camadas de atenção, fundindo tokens consecutivos ao longo da dimensão temporal. Terceiramente, Inferência Concorrente com Carregamento Dinâmico (CI-DL) particiona dinamicamente modelos grandes em blocos menores e os carrega na memória para inferência de modelo concorrente, abordando efetivamente os desafios de memória limitada do dispositivo. Implementamos o On-device Sora no iPhone 15 Pro, e as avaliações experimentais demonstram que ele é capaz de gerar vídeos de alta qualidade no dispositivo, comparáveis aos produzidos pelo Open-Sora em GPUs de alta qualidade. Esses resultados mostram que o On-device Sora possibilita a geração eficiente e de alta qualidade de vídeos em dispositivos móveis com recursos limitados, ampliando a acessibilidade, garantindo a privacidade do usuário, reduzindo a dependência da infraestrutura de nuvem e diminuindo os custos associados. Visualizamos o proposto On-device Sora como um importante primeiro passo para democratizar tecnologias generativas de ponta, possibilitando capacidades de geração de vídeo em dispositivos móveis e embarcados comuns. A implementação do código está disponível publicamente em um repositório do GitHub: https://github.com/eai-lab/On-device-Sora.
A fusão de modelos integra os pesos de vários modelos específicos de tarefas em um único modelo multi-tarefa. Apesar do interesse recente no problema, uma diferença significativa de desempenho entre os modelos combinados e de tarefa única ainda persiste. Neste artigo, investigamos as principais características das matrizes de tarefas - matrizes de atualização de pesos aplicadas a um modelo pré-treinado - que possibilitam uma fusão eficaz. Mostramos que a alinhamento entre componentes singulares das matrizes específicas de tarefas e fundidas está fortemente correlacionado com a melhoria de desempenho em relação ao modelo pré-treinado. Com base nisso, propomos um framework de fusão isotrópica que aplaina o espectro de valores singulares das matrizes de tarefas, aprimora o alinhamento e reduz a diferença de desempenho. Além disso, incorporamos subespaços comuns e específicos da tarefa para melhorar ainda mais o alinhamento e o desempenho. Nossa abordagem proposta alcança um desempenho de ponta em vários cenários, incluindo diversos conjuntos de tarefas e escalas de modelos. Este trabalho avança na compreensão da dinâmica de fusão de modelos, oferecendo uma metodologia eficaz para fundir modelos sem a necessidade de treinamento adicional. O código está disponível em https://github.com/danielm1405/iso-merging.
A generalização de modelos de linguagem (LMs) está passando por debates ativos, contrastando seu potencial para inteligência geral com suas dificuldades na composição de conhecimento básico (por exemplo, maldição reversa/transição). Este artigo revela o fenômeno das correlações lineares em LMs durante a composição de conhecimento. Para explicar, existe uma transformação linear entre certos conhecimentos relacionados que mapeia as previsões de logitos de próxima token de uma prompt para outra, por exemplo, "X vive na cidade de" para "X vive no país de" para cada X dado. Isso reflete a linearidade na composição do conhecimento humano, como Paris para França. Nossas descobertas indicam que a transformação linear é resiliente a ajustes em larga escala, generalizando conhecimento atualizado quando alinhado com relacionamentos do mundo real, mas causando alucinações quando se desvia. Resultados empíricos sugerem que a correlação linear pode servir como um identificador potencial de generalização de LM. Por fim, mostramos que tais correlações lineares podem ser aprendidas com uma única rede feedforward e representações de vocabulário pré-treinadas, indicando que a generalização de LM depende fortemente deste último.
Desde a introdução do Transformador de Visão (ViT), a patchificação tem sido amplamente considerada como uma abordagem de tokenização de imagem de fato para arquiteturas visuais simples. Ao comprimir o tamanho espacial das imagens, essa abordagem pode encurtar efetivamente a sequência de tokens e reduzir o custo computacional de arquiteturas visuais simples semelhantes ao ViT. Neste trabalho, nosso objetivo é examinar minuciosamente a perda de informação causada por esse paradigma de codificação compressiva baseada em patchificação e como isso afeta a compreensão visual. Realizamos extensos experimentos de dimensionamento de tamanho de patch e observamos com entusiasmo uma lei de dimensionamento intrigante na patchificação: os modelos podem consistentemente se beneficiar de tamanhos de patch reduzidos e obter um desempenho preditivo aprimorado, até atingir o tamanho mínimo de patch de 1x1, ou seja, a tokenização de pixel. Esta conclusão é amplamente aplicável em diferentes tarefas visuais, diversas escalas de entrada e arquiteturas diversas, como ViT e os recentes modelos Mamba. Além disso, como um subproduto, descobrimos que, com patches menores, as cabeças decodificadoras específicas da tarefa se tornam menos críticas para previsões densas. Nos experimentos, escalamos com sucesso a sequência visual para um comprimento excepcional de 50.176 tokens, alcançando uma precisão de teste competitiva de 84,6% com um modelo de tamanho base no benchmark ImageNet-1k. Esperamos que este estudo possa fornecer insights e fundamentos teóricos para futuros trabalhos na construção de modelos de visão não compressivos. O código está disponível em https://github.com/wangf3014/Patch_Scaling.
Os métodos existentes falham em direcionar de forma eficaz os Modelos de Linguagem de Grande Escala (LLMs) entre o raciocínio textual e a geração de código, deixando as capacidades de computação simbólica subutilizadas. Apresentamos o CodeSteer, um método eficaz para orientar a geração de código/texto do LLM. Construímos um benchmark abrangente, SymBench, composto por 37 tarefas simbólicas com complexidade ajustável e também sintetizamos conjuntos de dados de 12 mil trajetórias de orientação/geração de múltiplas rodadas e 5,5 mil pares de comparação de orientação. Ajustamos finamente o modelo Llama-3-8B com um novo ajuste fino supervisionado de múltiplas rodadas (SFT) e otimização de preferência direta (DPO). O modelo resultante, CodeSteerLLM, aumentado com os verificadores simbólicos e de autoresposta propostos, orienta de forma eficaz a geração de código/texto de modelos maiores. A incorporação do CodeSteer ao GPT-4o eleva sua pontuação média de desempenho de 53,3 para 86,4, superando até mesmo os melhores LLMs existentes da OpenAI o1 (82,7), o1-preview (74,8) e DeepSeek R1 (76,8) em todas as 37 tarefas (28 vistas, 9 não vistas). Treinado para o GPT-4o, o CodeSteer demonstra uma generalizabilidade superior, proporcionando um aumento médio de desempenho de 41,8 em Claude, Mistral e GPT-3.5. Os LLMs orientados pelo CodeSteer aproveitam plenamente a computação simbólica para manter um desempenho sólido em tarefas altamente complexas. Modelos, conjuntos de dados e códigos estão disponíveis em https://github.com/yongchao98/CodeSteer-v1.0.
Apresentamos o Pré-treinamento de Linguagem-Imagem Quantizada (QLIP), um método de tokenização visual que combina qualidade de reconstrução de ponta com compreensão de imagem sem treinamento. O QLIP treina um autoencoder baseado em quantização binária esférica com objetivos de reconstrução e alinhamento de linguagem-imagem. Somos os primeiros a mostrar que os dois objetivos não precisam ser conflitantes. Equilibramos dinamicamente os dois termos de perda durante o treinamento e demonstramos que um pipeline de treinamento em duas etapas mistura efetivamente os requisitos de lote grande do pré-treinamento de linguagem-imagem com o gargalo de memória imposto pelo objetivo de reconstrução. Validamos a eficácia do QLIP para compreensão multimodal e geração de imagem condicionada por texto com um único modelo. Especificamente, o QLIP serve como substituto direto para o codificador visual do LLaVA e o tokenizador de imagem para LlamaGen com desempenho comparável ou até melhor. Por fim, demonstramos que o QLIP permite um modelo auto-regressivo misto unificado para compreensão e geração.
Compreender o tempo a partir de representações visuais é uma habilidade cognitiva fundamental, no entanto, ainda é um desafio para modelos de linguagem multimodais de grande escala (MLLMs). Neste trabalho, investigamos as capacidades dos MLLMs na interpretação de tempo e data por meio de relógios analógicos e calendários anuais. Para facilitar isso, criamos um conjunto de dados estruturado composto por dois subconjuntos: 1) ClockQA, que inclui vários tipos de estilos de relógio - padrão, mostrador preto, sem ponteiro de segundos, numeração romana e ponteiros - associados a perguntas relacionadas ao tempo; e 2) CalendarQA, que consiste em imagens de calendários anuais com perguntas que vão de datas comumente conhecidas (por exemplo, Natal, Ano Novo) a datas derivadas computacionalmente (por exemplo, o 100º ou 153º dia do ano). Nosso objetivo é analisar como os MLLMs podem realizar reconhecimento visual, raciocínio numérico e inferência temporal quando apresentados com dados visuais relacionados ao tempo. Nossas avaliações mostram que, apesar dos avanços recentes, compreender o tempo de forma confiável ainda é um desafio significativo para os MLLMs.
Grandes modelos de linguagem (LLMs) alcançam um desempenho notável em benchmarks desafiadores frequentemente estruturados como tarefas de pergunta-resposta de múltipla escolha. A técnica Zero-shot Chain-of-Thought (CoT) aprimora o raciocínio em LLMs, mas fornece apenas orientações vagas e genéricas ("pense passo a passo"). Este artigo apresenta ARR, um método intuitivo e eficaz de orientação zero-shot que incorpora explicitamente três etapas-chave na resolução de perguntas e respostas: analisar a intenção da pergunta, recuperar informações relevantes e raciocinar passo a passo. Experimentos abrangentes em diversas e desafiadoras tarefas de pergunta-resposta demonstram que ARR melhora consistentemente o Baseline (sem orientação ARR) e supera o CoT. Estudos de ablação e de caso validam ainda mais as contribuições positivas de cada componente: análise, recuperação e raciocínio. Notavelmente, a análise de intenção desempenha um papel vital no ARR. Adicionalmente, avaliações extensivas em diferentes tamanhos de modelo, séries de LLM e configurações de geração solidificam a eficácia, robustez e generalizabilidade do ARR.
Escalonar dados e computação é fundamental para o sucesso do aprendizado de máquina. No entanto, o escalonamento exige previsibilidade: desejamos que os métodos não apenas tenham bom desempenho com mais computação ou dados, mas também que seu desempenho seja previsível a partir de execuções em pequena escala, sem a necessidade de realizar o experimento em larga escala. Neste artigo, demonstramos que os métodos de RL off-policy baseados em valores são previsíveis, apesar das crenças da comunidade sobre seu comportamento patológico. Primeiramente, mostramos que os requisitos de dados e computação para atingir um determinado nível de desempenho estão em uma fronteira de Pareto, controlada pela razão de atualizações para dados (UTD). Ao estimar essa fronteira, podemos prever o requisito de dados ao receber mais computação, e o requisito de computação ao receber mais dados. Em segundo lugar, determinamos a alocação ótima de um orçamento total de recursos entre dados e computação para um determinado desempenho e o utilizamos para determinar hiperparâmetros que maximizem o desempenho para um determinado orçamento. Em terceiro lugar, esse comportamento de escalonamento é viabilizado pela primeira estimativa de relações previsíveis entre hiperparâmetros, que é utilizada para gerenciar os efeitos de overfitting e perda de plasticidade únicos ao RL. Validamos nossa abordagem utilizando três algoritmos: SAC, BRO e PQL no DeepMind Control, OpenAI gym e IsaacGym, ao extrapolar para níveis mais altos de dados, computação, orçamento ou desempenho.
O alinhamento preciso nos sistemas de Texto-para-Imagem (T2I) é crucial para garantir que as imagens geradas não apenas encapsulem com precisão as intenções do usuário, mas também estejam em conformidade com rigorosos padrões éticos e estéticos. Incidentes como o fiasco do Google Gemini, onde saídas desalinhadas desencadearam significativas críticas públicas, destacam a necessidade crítica de mecanismos de alinhamento robustos. Em contraste, os Modelos de Linguagem Grandes (LLMs) alcançaram sucesso notável em alinhamento. Aproveitando esses avanços, os pesquisadores estão ansiosos para aplicar técnicas de alinhamento semelhantes, como a Otimização Direta de Preferências (DPO), aos sistemas T2I para aprimorar a fidelidade e confiabilidade na geração de imagens. Apresentamos o YinYangAlign, um avançado framework de benchmarking que quantifica sistematicamente a fidelidade de alinhamento dos sistemas T2I, abordando seis objetivos de design fundamentais e inerentemente contraditórios. Cada par representa tensões fundamentais na geração de imagens, como equilibrar a aderência às instruções do usuário com modificações criativas ou manter a diversidade juntamente com a coerência visual. O YinYangAlign inclui conjuntos de dados de axiomas detalhados com instruções humanas, respostas alinhadas (escolhidas), saídas geradas por IA desalinhadas (rejeitadas) e explicações das contradições subjacentes.
Apresentamos um framework unificado capaz de resolver uma ampla gama de tarefas em 3D. Nossa abordagem apresenta um modelo recorrente com estado que atualiza continuamente sua representação de estado a cada nova observação. Dado um fluxo de imagens, esse estado em evolução pode ser usado para gerar mapas de pontos em escala métrica (pontos 3D por pixel) para cada nova entrada de forma online. Esses mapas de pontos residem em um sistema de coordenadas comum e podem ser acumulados em uma reconstrução de cena densa e coerente que se atualiza à medida que novas imagens chegam. Nosso modelo, chamado CUT3R (Transformer de Atualização Contínua para Reconstrução 3D), captura informações ricas de cenas do mundo real: não apenas pode prever mapas de pontos precisos a partir de observações de imagens, mas também pode inferir regiões não vistas da cena ao explorar visualizações virtuais não observadas. Nosso método é simples, porém altamente flexível, aceitando naturalmente comprimentos variados de imagens que podem ser sequências de vídeo ou coleções de fotos não ordenadas, contendo conteúdo estático e dinâmico. Avaliamos nosso método em várias tarefas 3D/4D e demonstramos desempenho competitivo ou de ponta em cada uma. Página do Projeto: https://cut3r.github.io/
As caches semânticas reduzem a latência e o custo da inferência de grandes modelos de linguagem (LLM) reutilizando respostas geradas pelo LLM armazenadas para prompts semanticamente similares. Métricas de similaridade de vetores atribuem uma pontuação numérica para quantificar a similaridade entre um prompt incorporado e seu vizinho mais próximo no cache. Sistemas existentes dependem de um limiar estático para classificar se a pontuação de similaridade é suficientemente alta para resultar em um acerto no cache. Mostramos que este limiar único é insuficiente para diferentes prompts. Propomos o VectorQ, um framework para aprender regiões de limiar específicas para cada incorporação que se adaptam à complexidade e incerteza de uma incorporação. Através de avaliações em uma combinação de quatro conjuntos de dados diversos, demonstramos que o VectorQ consistentemente supera os sistemas de ponta em todos os limiares estáticos, alcançando aumentos de até 12 vezes na taxa de acertos no cache e reduções na taxa de erros de até 92%.
Nos locais de trabalho contemporâneos, as reuniões são essenciais para a troca de ideias e garantia de alinhamento da equipe, mas frequentemente enfrentam desafios como consumo de tempo, conflitos de agendamento e participação ineficiente. Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado suas fortes capacidades em geração de linguagem natural e raciocínio, levantando a questão: os LLMs podem delegar efetivamente participantes em reuniões? Para explorar isso, desenvolvemos um sistema protótipo de delegação de reuniões alimentado por LLM e criamos um benchmark abrangente usando transcrições reais de reuniões. Nossa avaliação revela que o GPT-4/4o mantém um desempenho equilibrado entre estratégias de engajamento ativo e cauteloso. Em contraste, o Gemini 1.5 Pro tende a ser mais cauteloso, enquanto o Gemini 1.5 Flash e o Llama3-8B/70B exibem tendências mais ativas. No geral, cerca de 60\% das respostas abordam pelo menos um ponto-chave da verdade fundamental. No entanto, melhorias são necessárias para reduzir conteúdo irrelevante ou repetitivo e aprimorar a tolerância a erros de transcrição comumente encontrados em ambientes do mundo real. Além disso, implementamos o sistema em ambientes práticos e coletamos feedback do mundo real por meio de demonstrações. Nossas descobertas destacam o potencial e os desafios de utilizar LLMs como delegados de reuniões, oferecendo insights valiosos sobre sua aplicação prática para aliviar o fardo das reuniões.
Propomos o SPARC, um framework leve de aprendizado contínuo para grandes modelos de linguagem (LLMs) que possibilita uma adaptação eficiente às tarefas por meio do ajuste de prompts em um espaço de menor dimensão. Ao utilizar a análise de componentes principais (PCA), identificamos um subespaço compacto dos dados de treinamento. A otimização de prompts nesse espaço de menor dimensão melhora a eficiência do treinamento, pois concentra as atualizações nos recursos mais relevantes, ao mesmo tempo que reduz a sobrecarga computacional. Além disso, como a estrutura interna do modelo permanece inalterada, o extenso conhecimento adquirido durante o pré-treinamento é totalmente preservado, garantindo que as informações previamente aprendidas não sejam comprometidas durante a adaptação. Nosso método alcança alta retenção de conhecimento tanto em configurações de aprendizado contínuo incremental de tarefas quanto de domínios, ao ajustar apenas 0,04% dos parâmetros do modelo. Adicionalmente, ao integrar LoRA, aprimoramos a adaptabilidade às restrições computacionais, permitindo um equilíbrio entre precisão e custo de treinamento. Experimentos no benchmark SuperGLUE demonstram que nosso ajuste de prompts baseado em PCA combinado com LoRA mantém a retenção total de conhecimento enquanto melhora a precisão, utilizando apenas 1% dos parâmetros do modelo. Esses resultados estabelecem nossa abordagem como uma solução escalável e eficiente em recursos para o aprendizado contínuo em LLMs.
A computação autônoma na borda em robótica, cidades inteligentes e veículos autônomos depende da integração perfeita de sensoriamento, processamento e atuação para tomada de decisão em tempo real em ambientes dinâmicos. Em seu cerne está o ciclo de sensoriamento-ação, que alinha de forma iterativa as entradas dos sensores com modelos computacionais para impulsionar estratégias de controle adaptativas. Esses ciclos podem se adaptar às condições hiper-locais, aprimorando a eficiência de recursos e a responsividade, mas também enfrentam desafios como restrições de recursos, atrasos de sincronização na fusão de dados multimodais e o risco de erros em cascata nos loops de feedback. Este artigo explora como adaptações proativas e conscientes do contexto no sensoriamento-ação e ação-sensoriamento podem aprimorar a eficiência ao ajustar dinamicamente o sensoriamento e a computação com base nas demandas da tarefa, como sensoriar uma parte muito limitada do ambiente e prever o restante. Ao guiar o sensoriamento por meio de ações de controle, os caminhos de ação-sensoriamento podem melhorar a relevância da tarefa e o uso de recursos, mas também exigem monitoramento robusto para evitar erros em cascata e manter a confiabilidade. Os ciclos de sensoriamento-ação multiagentes estendem ainda mais essas capacidades por meio de sensoriamento e ações coordenadas entre agentes distribuídos, otimizando o uso de recursos por meio da colaboração. Além disso, a computação neuromórfica, inspirada em sistemas biológicos, fornece um framework eficiente para processamento baseado em eventos de spikes que conserva energia, reduz a latência e suporta controle hierárquico, tornando-a ideal para otimização multiagente. Este artigo destaca a importância de estratégias de co-design de ponta a ponta que alinham modelos algorítmicos com hardware e dinâmicas ambientais e melhoram as interdependências entre camadas para aprimorar o throughput, a precisão e a adaptabilidade para autonomia eficiente em energia na borda em ambientes complexos.