Artigos de pesquisa em IA selecionados diariamente com traduções
A geração aumentada por recuperação multi-etapa (RAG) tornou-se uma estratégia amplamente adotada para aprimorar grandes modelos de linguagem (LLMs) em tarefas que exigem compreensão global e raciocínio intensivo. Muitos sistemas RAG incorporam um módulo de memória de trabalho para consolidar informações recuperadas. No entanto, os projetos de memória existentes funcionam principalmente como armazenamento passivo que acumula fatos isolados com o objetivo de condensar entradas extensas e gerar novas subconsultas por meio de dedução. Esta natureza estática negligencia as cruciais correlações de alta ordem entre fatos primitivos, cujas composições frequentemente podem fornecer orientação mais forte para etapas subsequentes. Portanto, sua força representacional e impacto no raciocínio multi-etapa e na evolução do conhecimento são limitados, resultando em raciocínio fragmentado e fraca capacidade de construção de sentido global em contextos extensos. Apresentamos o HGMem, um mecanismo de memória baseado em hipergrafos que estende o conceito de memória além do simples armazenamento para uma estrutura dinâmica e expressiva para raciocínio complexo e compreensão global. Em nossa abordagem, a memória é representada como um hipergrafo cujas hiperarestas correspondem a unidades de memória distintas, permitindo a formação progressiva de interações de ordem superior dentro da memória. Este mecanismo conecta fatos e pensamentos em torno do problema focal, evoluindo para uma estrutura de conhecimento integrada e situada que fornece proposições sólidas para raciocínios mais profundos em etapas subsequentes. Avaliamos o HGMem em vários conjuntos de dados desafiadores projetados para construção de sentido global. Experimentos extensos e análises aprofundadas mostram que nosso método melhora consistentemente o RAG multi-etapa e supera substancialmente sistemas de linha de base robustos em diversas tarefas.
Embora os Modelos de Linguagem Multimodais (MLLMs) recentes tenham alcançado avanços significativos no raciocínio multimodal, seus processos de raciocínio permanecem predominantemente centrados em texto, resultando em desempenho abaixo do ideal em tarefas visuais complexas de longo horizonte. Neste artigo, estabelecemos um novo paradigma de Raciocínio Multimodal Generativo e introduzimos o DiffThinker, uma estrutura de raciocínio baseada em difusão. Conceitualmente, o DiffThinker reformula o raciocínio multimodal como uma tarefa generativa nativa de imagem para imagem, alcançando consistência lógica superior e precisão espacial em tarefas centradas na visão. Realizamos uma comparação sistemática entre o DiffThinker e os MLLMs, fornecendo a primeira investigação aprofundada sobre as características intrínsecas deste paradigma, revelando quatro propriedades centrais: eficiência, controlabilidade, paralelismo nativo e colaboração. Experimentos extensos em quatro domínios (planeamento sequencial, otimização combinatória, satisfação de restrições e configuração espacial) demonstram que o DiffThinker supera significativamente os principais modelos proprietários, incluindo GPT-5 (+314,2%) e Gemini-3-Flash (+111,6%), bem como a linha de base ajustada do Qwen3-VL-32B (+39,0%), destacando o raciocínio multimodal generativo como uma abordagem promissora para o raciocínio centrado na visão.
Os Modelos de Linguagem de Grande Porte (LLMs) aplicam computação uniforme a todos os tokens, apesar de a linguagem exibir uma densidade de informação altamente não uniforme. Este regime token-uniforme desperdiça capacidade em trechos localmente previsíveis, enquanto subaloca computação para transições semanticamente críticas. Propomos os Modelos de Grande Conceito Dinâmicos (DLCM), uma estrutura de modelagem de linguagem hierárquica que aprende limites semânticos a partir de representações latentes e desloca a computação dos tokens para um espaço de conceito comprimido, onde o raciocínio é mais eficiente. O DLCM descobre conceitos de comprimento variável de forma integral (end-to-end) sem depender de unidades linguísticas predefinidas. A compressão hierárquica muda fundamentalmente o comportamento de escalonamento. Introduzimos a primeira lei de escalonamento consciente da compressão, que desacopla a capacidade a nível de token, a capacidade de raciocínio a nível de conceito e a taxa de compressão, permitindo uma alocação de computação fundamentada sob FLOPs fixos. Para treinar esta arquitetura heterogénea de forma estável, desenvolvemos ainda uma parametrização μP desacoplada que suporta a transferência *zero-shot* de hiperparâmetros através de larguras e regimes de compressão. Num cenário prático (R=4, correspondendo a uma média de quatro tokens por conceito), o DLCM realoca aproximadamente um terço da computação de inferência para um *backbone* de raciocínio de maior capacidade, alcançando uma melhoria média de +2,69% em 12 benchmarks *zero-shot* sob FLOPs de inferência equivalentes.
Os modelos de difusão oferecem propriedades atrativas para a geração de linguagem, como decodificação paralela e refinamento iterativo, mas a natureza discreta e altamente estruturada do texto desafia a aplicação direta dos princípios de difusão. Neste artigo, revisitamos a modelagem de linguagem por difusão sob a perspectiva do processo de difusão e da modelagem de linguagem, e delineamos cinco propriedades que separam a mecânica de difusão dos requisitos específicos da linguagem. Primeiro, categorizamos as abordagens existentes em difusão contínua no espaço de incorporação e difusão discreta sobre tokens. Em seguida, demonstramos que cada uma satisfaz apenas parte das cinco propriedades essenciais e, portanto, reflete um compromisso estrutural. Por meio de análises de modelos de linguagem por difusão recentes e de grande escala, identificamos dois problemas centrais: (i) a corrupção uniforme não respeita como a informação é distribuída entre as posições, e (ii) o treinamento marginal token a token não consegue capturar dependências multi-token durante a decodificação paralela. Essas observações motivam processos de difusão que se alinhem mais de perto com a estrutura do texto e incentivam trabalhos futuros na direção de modelos de linguagem por difusão mais coerentes.
A modelagem generativa de vídeo emergiu como uma ferramenta convincente para raciocínio zero-shot sobre interações físicas plausíveis em manipulação de mundo aberto. No entanto, permanece um desafio traduzir tais movimentos guiados por humanos nas ações de baixo nível exigidas por sistemas robóticos. Observamos que, dada uma imagem inicial e uma instrução de tarefa, esses modelos se destacam em sintetizar movimentos sensatos de objetos. Assim, introduzimos o Dream2Flow, uma estrutura que conecta a geração de vídeo e o controle robótico através do fluxo de objetos 3D como uma representação intermediária. Nosso método reconstrói movimentos 3D de objetos a partir de vídeos gerados e formula a manipulação como um rastreamento de trajetória de objetos. Ao separar as mudanças de estado dos atuadores que realizam essas mudanças, o Dream2Flow supera a lacuna de embodimento e permite orientação zero-shot a partir de modelos de vídeo pré-treinados para manipular objetos de diversas categorias - incluindo rígidos, articulados, deformáveis e granulares. Através de otimização de trajetória ou aprendizado por reforço, o Dream2Flow converte o fluxo de objetos 3D reconstruído em comandos de baixo nível executáveis, sem demonstrações específicas da tarefa. Experimentos em simulação e no mundo real destacam o fluxo de objetos 3D como uma interface geral e escalável para adaptar modelos de geração de vídeo à manipulação robótica de mundo aberto. Vídeos e visualizações estão disponíveis em https://dream2flow.github.io/.
Neste trabalho, demonstramos que o impacto da capacidade do modelo varia ao longo dos intervalos de tempo: é crucial nos estágios iniciais e finais, mas largamente negligenciável durante o estágio intermediário. Consequentemente, propomos o FlowBlending, uma estratégia de amostragem multi-modelo consciente do estágio que emprega um modelo grande e um modelo pequeno nos estágios sensíveis à capacidade e nos estágios intermediários, respectivamente. Introduzimos ainda critérios simples para escolher os limites dos estágios e fornecemos uma análise de divergência de velocidade como um proxy eficaz para identificar regiões sensíveis à capacidade. Em LTX-Video (2B/13B) e WAN 2.1 (1.3B/14B), o FlowBlending alcança uma inferência até 1,65x mais rápida com 57,35% menos FLOPs, mantendo a fidelidade visual, a coerência temporal e o alinhamento semântico dos modelos grandes. O FlowBlending também é compatível com técnicas existentes de aceleração de amostragem, permitindo um acréscimo de velocidade de até 2x. A página do projeto está disponível em: https://jibin86.github.io/flowblending_project_page.
A otimização por simulação (SO) é frequentemente desafiada por avaliações ruidosas, custos computacionais elevados e paisagens de busca complexas e multimodais. Este artigo introduz a Otimização por Simulação com Aprimoramento Tabu (TESO), uma nova estrutura metaheurística que integra busca adaptativa com estratégias baseadas em memória. A TESO aproveita uma Lista Tabu de curto prazo para evitar ciclagem e incentivar a diversificação, e uma Memória de Elite de longo prazo para orientar a intensificação através da perturbação de soluções de alto desempenho. Um critério de aspiração permite anular restrições tabu para candidatos excepcionais. Esta combinação facilita um equilíbrio dinâmico entre exploração e exploração em ambientes estocásticos. Demonstramos a eficácia e a confiabilidade da TESO usando um problema de otimização de filas, mostrando um desempenho melhorado em comparação com benchmarks e validando a contribuição dos seus componentes de memória. O código-fonte e os dados estão disponíveis em: https://github.com/bulentsoykan/TESO.