Artigos de pesquisa em IA selecionados diariamente com traduções
Exploramos um método para melhorar o desempenho de modelos de linguagem de grande escala por meio de autorreflexão e aprendizado por reforço. Ao incentivar o modelo a gerar autorreflexões melhores quando responde incorretamente, demonstramos que a capacidade do modelo de resolver tarefas complexas e verificáveis pode ser aprimorada, mesmo quando a geração de dados sintéticos é inviável e apenas feedback binário está disponível. Nosso framework opera em duas etapas: primeiro, ao falhar em uma tarefa específica, o modelo gera um comentário autorreflexivo analisando sua tentativa anterior; segundo, o modelo recebe outra chance de realizar a tarefa com a autorreflexão em contexto. Se a tentativa subsequente for bem-sucedida, os tokens gerados durante a fase de autorreflexão são recompensados. Nossos resultados experimentais mostram ganhos substanciais de desempenho em uma variedade de arquiteturas de modelos, com melhorias de até 34,7% na escrita de equações matemáticas e 18,1% na chamada de funções. Notavelmente, modelos menores e ajustados (1,5 bilhão a 7 bilhões de parâmetros) superam modelos da mesma família que são 10 vezes maiores. Nosso novo paradigma é, portanto, um caminho promissor para modelos de linguagem mais úteis e confiáveis que podem se autoaperfeiçoar em tarefas desafiadoras com feedback externo limitado.
Embora os modelos unificados existentes ofereçam um desempenho robusto em tarefas de compreensão visão-linguagem e geração de texto para imagem, eles são limitados na exploração de tarefas de percepção e manipulação de imagens, que são urgentemente demandadas pelos usuários para amplas aplicações. Recentemente, a OpenAI lançou seu poderoso modelo GPT-4o-Image para percepção e manipulação abrangente de imagens, alcançando capacidade expressiva e atraindo o interesse da comunidade. Ao observar o desempenho do GPT-4o-Image em nossos experimentos cuidadosamente construídos, inferimos que o GPT-4o-Image utiliza características extraídas por codificadores semânticos em vez de VAEs, enquanto os VAEs são considerados componentes essenciais em muitos modelos de manipulação de imagens. Motivados por essas observações inspiradoras, apresentamos um framework generativo unificado chamado UniWorld, baseado em características semânticas fornecidas por modelos visão-linguagem poderosos e codificadores semânticos contrastivos. Como resultado, construímos um modelo unificado robusto utilizando apenas 1% da quantidade de dados do BAGEL, que consistentemente supera o BAGEL em benchmarks de edição de imagens. O UniWorld também mantém capacidades competitivas de compreensão e geração de imagens, alcançando um desempenho forte em múltiplas tarefas de percepção de imagens. Disponibilizamos totalmente nossos modelos em código aberto, incluindo pesos do modelo, scripts de treinamento e avaliação, e conjuntos de dados.
Os recentes avanços em Modelos de Linguagem Visual (VLMs) expandiram suas capacidades para tarefas de agentes interativos, mas os benchmarks existentes ainda se limitam a ambientes de agente único ou apenas texto. Em contraste, cenários do mundo real frequentemente envolvem múltiplos agentes interagindo em contextos visuais e linguísticos ricos, apresentando desafios tanto com observações multimodais quanto com interações estratégicas. Para preencher essa lacuna, introduzimos o Visual Strategic Bench (VS-Bench), um benchmark multimodal que avalia VLMs para raciocínio estratégico e tomada de decisão em ambientes multiagentes. O VS-Bench compreende oito ambientes baseados em visão, abrangendo interações cooperativas, competitivas e de motivação mista, projetados para avaliar a capacidade dos agentes de prever os movimentos futuros de outros e otimizar para objetivos de longo prazo. Consideramos duas dimensões complementares de avaliação, incluindo a avaliação offline do raciocínio estratégico pela precisão da previsão da próxima ação e a avaliação online da tomada de decisão pelo retorno normalizado do episódio. Experimentos extensivos com quatorze VLMs líderes revelam uma lacuna significativa entre os modelos atuais e o desempenho ideal, com os melhores modelos atingindo 47,8% de precisão de previsão e 24,3% de retorno normalizado. Realizamos ainda análises aprofundadas sobre observações multimodais, escalonamento em tempo de teste, comportamentos sociais e casos de falha de agentes VLM. Ao padronizar a avaliação e destacar as limitações dos modelos existentes, vislumbramos o VS-Bench como uma base para pesquisas futuras sobre agentes multimodais estratégicos. O código e os dados estão disponíveis em https://vs-bench.github.io.
Modelos visão-linguagem (VLMs) treinados por meio de aprendizado por reforço com recompensa verificável (RLVR) têm mostrado progresso notável na escalabilidade eficaz do cálculo em tempo de teste. Neste trabalho, investigamos como dados sintetizados de RL podem aprimorar ainda mais o RLVR. Para isso, propomos o SynthRL — um pipeline escalável e garantido para a ampliação automática de dados em treinamentos de RL orientados ao raciocínio. O SynthRL compreende três etapas principais: (1) seleção de questões iniciais com distribuição apropriada, (2) ampliação delas em variantes mais desafiadoras, preservando as respostas originais, e (3) uma etapa de verificação garantida que assegura correção quase perfeita e aumento da dificuldade. Nossos experimentos empíricos demonstram a escalabilidade e eficácia do SynthRL. Quando aplicado ao conjunto de dados MMK12, o SynthRL sintetiza mais de 3,3 mil questões adicionais verificáveis e desafiadoras a partir de aproximadamente 8 mil amostras iniciais. Modelos treinados com nossos dados sintetizados alcançam ganhos consistentes em cinco benchmarks de raciocínio matemático visual fora do domínio, com uma melhoria significativa em relação aos modelos de base treinados apenas com dados iniciais. Notavelmente, análises detalhadas revelam que os ganhos são mais pronunciados nas amostras de avaliação mais desafiadoras, destacando a eficácia do SynthRL em eliciar padrões de raciocínio mais profundos e complexos.
Os Modelos de Visão-Linguagem (VLMs) têm demonstrado progressos notáveis na compreensão multimodal, mas suas capacidades para raciocínio científico permanecem insuficientemente avaliadas. Os benchmarks multimodais atuais avaliam predominantemente a compreensão genérica de imagens ou o raciocínio baseado em texto, carecendo de contextos científicos autênticos que exigem a integração de conhecimento específico do domínio com a análise de evidências visuais. Para preencher essa lacuna, apresentamos o CSVQA, um benchmark multimodal diagnóstico especificamente projetado para avaliar o raciocínio científico por meio de respostas a perguntas visuais fundamentadas no domínio. Nosso benchmark apresenta 1.378 pares de perguntas e respostas cuidadosamente construídos, abrangendo diversas disciplinas STEM, cada um exigindo conhecimento do domínio, integração de evidências visuais e raciocínio de ordem superior. Em comparação com benchmarks multimodais anteriores, o CSVQA dá maior ênfase ao conteúdo científico do mundo real e ao raciocínio complexo. Além disso, propomos um protocolo de avaliação rigoroso para avaliar sistematicamente se as previsões dos modelos são fundamentadas por etapas intermediárias de raciocínio válidas com base em explicações curadas. Nossa avaliação abrangente de 15 VLMs neste benchmark revela disparidades notáveis de desempenho, já que mesmo o modelo proprietário mais bem classificado atinge apenas 49,6% de precisão. Essa evidência empírica ressalta a necessidade urgente de avançar as capacidades de raciocínio científico nos VLMs. Nosso CSVQA está disponível em https://huggingface.co/datasets/Skywork/CSVQA.
Um dos principais desafios na construção de agentes de interface gráfica (GUI) baseados em modelos de linguagem visual (VLM) é o grounding visual, ou seja, a localização da região apropriada da tela para a execução de ações com base tanto no conteúdo visual quanto nos planos textuais. A maioria dos trabalhos existentes formula isso como uma tarefa de geração de coordenadas baseada em texto. No entanto, essas abordagens sofrem com várias limitações: alinhamento espacial-semântico fraco, incapacidade de lidar com alvos de supervisão ambíguos e uma incompatibilidade entre a natureza densa das coordenadas da tela e a granularidade grossa, em nível de patches, das características visuais extraídas por modelos como Vision Transformers. Neste artigo, propomos o GUI-Actor, um método baseado em VLM para grounding de GUI sem coordenadas. No seu cerne, o GUI-Actor introduz um cabeçalho de ação baseado em atenção que aprende a alinhar um token dedicado <ACTOR> com todos os tokens de patches visuais relevantes, permitindo que o modelo proponha uma ou mais regiões de ação em uma única passagem. Alinhado a isso, projetamos ainda um verificador de grounding para avaliar e selecionar a região de ação mais plausível entre as candidatas propostas para execução. Experimentos extensivos mostram que o GUI-Actor supera os métodos state-of-the-art anteriores em vários benchmarks de grounding de ações em GUI, com melhoria na generalização para resoluções e layouts de tela não vistos. Notavelmente, o GUI-Actor-7B até supera o UI-TARS-72B (38.1) no ScreenSpot-Pro, alcançando pontuações de 40.7 com Qwen2-VL e 44.6 com Qwen2.5-VL como backbones. Além disso, ao incorporar o verificador, descobrimos que o ajuste fino apenas do cabeçalho de ação recém-introduzido (~100M parâmetros para o modelo de 7B), mantendo o backbone do VLM congelado, é suficiente para alcançar desempenho comparável aos modelos state-of-the-art anteriores, destacando que o GUI-Actor pode dotar o VLM subjacente de capacidades eficazes de grounding sem comprometer seus pontos fortes de propósito geral.
O raciocínio espacial é um aspecto fundamental da psicologia cognitiva e continua sendo um grande gargalo para os modelos visão-linguagem (VLMs) atuais. Embora pesquisas extensas tenham buscado avaliar ou melhorar a compreensão dos VLMs sobre relações espaciais básicas, como distinguir esquerda de direita, perto de longe e contagem de objetos, essas tarefas representam apenas o nível mais fundamental do raciocínio espacial. Neste trabalho, apresentamos o OmniSpatial, um benchmark abrangente e desafiador para raciocínio espacial, fundamentado na psicologia cognitiva. O OmniSpatial abrange quatro categorias principais: raciocínio dinâmico, lógica espacial complexa, interação espacial e tomada de perspectiva, com 50 subcategorias detalhadas. Por meio de coleta de dados na Internet e anotação manual cuidadosa, construímos mais de 1,5 mil pares de perguntas e respostas. Experimentos extensos mostram que tanto VLMs de código aberto quanto proprietários, bem como modelos existentes de raciocínio e compreensão espacial, apresentam limitações significativas na compreensão espacial abrangente. Analisamos ainda os casos de falha e propomos direções potenciais para pesquisas futuras.
Modelos avançados recentes de raciocínio em larga escala (LRMs) utilizam cadeias de pensamento (CoT) estendidas para resolver tarefas complexas, alcançando desempenho de ponta. Apesar de seu sucesso, identificamos um problema crítico: uma parcela significativa de tarefas simples resolvidas por LRMs também pode ser abordada por LLMs sem raciocínio, utilizando significativamente menos tokens, indicando que o raciocínio complexo pode nem sempre ser necessário. Para resolver isso, analisamos sistematicamente as trajetórias de raciocínio dos LRMs e apresentamos um método que utiliza paradigmas identificados e o LLM-Judge para classificar essas trajetórias como Raciocínio Redundante ou Raciocínio Essencial. Além disso, introduzimos o OThink-R1, um método que poda etapas de raciocínio redundantes enquanto preserva a validade lógica. O OThink-R1 emprega dinamicamente o modo não pensante (pensamento rápido) para problemas diretos, enquanto engaja em pensamento deliberado (pensamento lento) para problemas complexos. Experimentos em tarefas matemáticas e de questionamento demonstram que o OThink-R1 reduz a redundância de raciocínio em quase 23% em média, sem comprometer a precisão, oferecendo diretrizes práticas para modelos de raciocínio eficientes. O código está disponível em https://github.com/AgenticIR-Lab/OThink-R1.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm experimentado um desenvolvimento rápido nos últimos anos. No entanto, no domínio financeiro, há uma notável falta de conjuntos de dados de avaliação multimodal eficazes e especializados. Para avançar o desenvolvimento de MLLMs no domínio financeiro, introduzimos o FinMME, que abrange mais de 11.000 amostras de alta qualidade de pesquisas financeiras em 18 domínios financeiros e 6 classes de ativos, apresentando 10 tipos principais de gráficos e 21 subtipos. Garantimos a qualidade dos dados por meio de 20 anotadores e mecanismos de validação cuidadosamente projetados. Além disso, desenvolvemos o FinScore, um sistema de avaliação que incorpora penalidades por alucinação e avaliação multidimensional de capacidades para fornecer uma avaliação imparcial. Resultados experimentais extensivos demonstram que até mesmo modelos de última geração, como o GPT-4o, apresentam desempenho insatisfatório no FinMME, destacando sua natureza desafiadora. O benchmark exibe alta robustez, com variações de previsão sob diferentes prompts permanecendo abaixo de 1%, demonstrando confiabilidade superior em comparação com conjuntos de dados existentes. Nosso conjunto de dados e protocolo de avaliação estão disponíveis em https://huggingface.co/datasets/luojunyu/FinMME e https://github.com/luo-junyu/FinMME.
O progresso notável dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tem atraído atenção crescente para estendê-los a entidades físicas, como robôs com pernas. Isso tipicamente exige que os MLLMs não apenas dominem habilidades de compreensão multimodal, mas também integrem capacidades de raciocínio visual-espacial e interação física. No entanto, os métodos existentes lutam para unificar essas capacidades devido às suas diferenças fundamentais. Neste artigo, apresentamos o Cérebro Visual Embarcado (VeBrain), um framework unificado para percepção, raciocínio e controle no mundo real. O VeBrain reformula o controle robótico em tarefas comuns baseadas em texto de MLLMs no espaço visual 2D, unificando assim os objetivos e espaços de mapeamento de diferentes tarefas. Em seguida, propomos um novo adaptador robótico para converter sinais de controle textuais de MLLMs em políticas de movimento de robôs reais. Do ponto de vista dos dados, introduzimos ainda o VeBrain-600k, um conjunto de dados de instrução de alta qualidade que abrange várias capacidades do VeBrain. No VeBrain-600k, dedicamos centenas de horas para coletar, curar e anotar os dados, e adotamos o pensamento em cadeia multimodal (CoT) para misturar as diferentes capacidades em uma única conversa. Experimentos extensivos em 13 benchmarks multimodais e 5 benchmarks de inteligência espacial demonstram o desempenho superior do VeBrain em comparação com MLLMs existentes, como o Qwen2.5-VL. Quando implantado em robôs com pernas e braços robóticos, o VeBrain mostra forte adaptabilidade, flexibilidade e capacidades composicionais em comparação com os métodos existentes. Por exemplo, em comparação com o Qwen2.5-VL, o VeBrain não apenas alcança ganhos substanciais no MMVet com +5,6%, mas também se destaca em tarefas de robôs com pernas com ganhos médios de +50%.
Os LLMs de difusão surgiram como uma alternativa promissora aos LLMs autoregressivos convencionais, oferecendo um potencial significativo para melhorar a eficiência em tempo de execução. No entanto, os modelos de difusão existentes carecem da capacidade de impor de forma comprovada restrições formais especificadas pelo usuário, como expressões regulares, o que os torna pouco confiáveis para tarefas que exigem saídas estruturadas, como a geração de JSON com esquema fixo. Diferentemente dos modelos autoregressivos, que geram tokens sequencialmente, os LLMs de difusão preveem um bloco de tokens em paralelo. Esse paralelismo torna os algoritmos tradicionais de decodificação com restrições, projetados para previsão sequencial de tokens, ineficazes na preservação da verdadeira distribuição de saída. Para superar essa limitação, propomos o DINGO, uma estratégia de decodificação com restrições baseada em programação dinâmica que é tanto eficiente quanto comprovadamente preservadora da distribuição. O DINGO permite a amostragem de strings de saída com a maior probabilidade sob a distribuição prevista pelo modelo, enquanto satisfaz estritamente qualquer expressão regular especificada pelo usuário. Em benchmarks padrão de matemática simbólica e geração de JSON, o DINGO alcança uma melhoria de até 68 pontos percentuais em relação à inferência sem restrições.
Grandes Modelos de Visão e Linguagem (LVLMs, na sigla em inglês) têm demonstrado recentemente um grande potencial no avanço da robótica ao combinar raciocínio incorporado com controle de robôs. Uma abordagem comum envolve o treinamento em tarefas de raciocínio incorporado relacionadas ao controle de robôs usando Ajuste Fino Supervisionado (SFT, na sigla em inglês). No entanto, os conjuntos de dados de SFT são frequentemente construídos de forma heurística e não são explicitamente otimizados para melhorar o controle de robôs. Além disso, o SFT frequentemente leva a problemas como esquecimento catastrófico e redução no desempenho de generalização. Para abordar essas limitações, introduzimos o Robot-R1, uma estrutura inovadora que aproveita o aprendizado por reforço para aprimorar o raciocínio incorporado especificamente para o controle de robôs. O Robot-R1 aprende a prever o próximo estado de ponto-chave necessário para a conclusão da tarefa, condicionado à imagem atual da cena e aos metadados do ambiente derivados de demonstrações de especialistas. Inspirado pela abordagem de aprendizado DeepSeek-R1, o Robot-R1 amostra respostas baseadas em raciocínio e reforça aquelas que levam a previsões mais precisas. Nossos experimentos mostram que os modelos treinados com o Robot-R1 superam os métodos de SFT em tarefas de raciocínio incorporado. Apesar de ter apenas 7 bilhões de parâmetros, o Robot-R1 até supera o GPT-4o em tarefas de raciocínio relacionadas ao controle de ações de baixo nível, como raciocínio espacial e de movimentos primitivos.
Embora os Transformers de Difusão (DiTs) tenham alcançado avanços na geração de vídeos, essa tarefa de geração de sequências longas continua limitada pela complexidade quadrática dos mecanismos de atenção, resultando em uma latência significativa durante a inferência. Através de uma análise detalhada dos mapas de atenção no Transformer de Difusão de Vídeo (vDiT), identificamos três padrões recorrentes de esparsidade: estruturas diagonais, multi-diagonais e de faixas verticais. Além disso, até 3-6\% das cabeças de atenção podem ser ignoradas. Crucialmente, esses padrões exibem fortes correlações com a profundidade da camada e a posição da cabeça, mas mostram uma dependência limitada do conteúdo de entrada. Aproveitando essas descobertas, propomos o Sparse-vDiT, um framework de aceleração por esparsidade para o vDiT que compreende: 1) Kernels esparsos otimizados por padrão, que substituem a atenção densa por implementações computacionalmente eficientes para cada padrão de esparsidade identificado. 2) Um algoritmo de busca de difusão esparsa offline que seleciona a estratégia de computação esparsa ótima por camada e cabeça através de modelagem de custo consciente do hardware. Após determinar a configuração ótima, fundimos as cabeças dentro da mesma camada que compartilham a mesma estratégia de atenção, aumentando a eficiência da inferência. Integrado aos modelos vDiT de última geração (CogVideoX1.5, HunyuanVideo e Wan2.1), o Sparse-vDiT alcança reduções teóricas de FLOP de 2.09x, 2.38x e 1.67x, e acelerações reais de inferência de 1.76x, 1.85x e 1.58x, respectivamente, enquanto mantém alta fidelidade visual, com valores de PSNR atingindo 24.13, 27.09 e 22.59. Nosso trabalho demonstra que a esparsidade estrutural latente nos vDiTs pode ser sistematicamente explorada para a síntese de vídeos longos.
Apesar dos avanços nos Modelos de Linguagem Multimodais de Grande Escala (MLLMs), sua proficiência na compreensão de movimentos detalhados em vídeos permanece criticamente limitada. Eles frequentemente carecem de diferenciação entre quadros e tendem a calcular médias ou ignorar pistas visuais sutis. Além disso, embora o prompting visual tenha mostrado potencial em imagens estáticas, sua aplicação às complexidades temporais dos vídeos, particularmente para a compreensão de movimentos detalhados, permanece amplamente inexplorada. Investigamos se a capacidade inerente pode ser desbloqueada e impulsionar a percepção de movimento dos MLLMs, permitindo assinaturas visuais distintas adaptadas para desacoplar pistas de movimento de objetos e da câmera. Neste estudo, introduzimos o MotionSight, um método inovador de zero-shot que pioneira o uso de spotlight visual centrado no objeto e desfoque de movimento como prompts visuais para melhorar efetivamente a compreensão de movimentos detalhados sem treinamento. Para transformar isso em ativos de dados valiosos, criamos o MotionVid-QA, o primeiro conjunto de dados em grande escala para a compreensão de movimentos detalhados em vídeos, com anotações hierárquicas incluindo dados de SFT e preferência, {\Theta}(40K) clipes de vídeo e {\Theta}(87K) perguntas e respostas. Os experimentos mostram que o MotionSight alcança desempenho de última geração em código aberto e competitividade com modelos comerciais. Em particular, para a compreensão de movimentos detalhados, apresentamos uma técnica inovadora de zero-shot e um conjunto de dados em grande escala e de alta qualidade. Todo o código e anotações estarão publicamente disponíveis.
Apresentamos o Otimização de Fidelidade ao Assunto (SFO), uma nova estrutura de aprendizado comparativo para geração orientada por assunto em zero-shot que aprimora a fidelidade ao assunto. Além dos métodos de ajuste fino supervisionado que dependem apenas de alvos positivos e utilizam a perda de difusão como na fase de pré-treinamento, o SFO introduz alvos negativos sintéticos e orienta explicitamente o modelo a preferir positivos em vez de negativos por meio de comparação pareada. Para alvos negativos, propomos a Amostragem Negativa com Degradação de Condição (CDNS), que gera automaticamente negativos distintos e informativos ao degradar intencionalmente pistas visuais e textuais sem a necessidade de anotações humanas custosas. Além disso, reajustamos os passos de tempo da difusão para concentrar o ajuste fino em etapas intermediárias onde os detalhes do assunto emergem. Experimentos extensivos demonstram que o SFO com CDNS supera significativamente as linhas de base em termos de fidelidade ao assunto e alinhamento de texto em um benchmark de geração orientada por assunto. Página do projeto: https://subjectfidelityoptimization.github.io/
Propomos o CURE, uma nova estrutura de aprendizagem por reforço com um design de recompensa dedicado que co-evolui as capacidades de geração de código e testes unitários com base nos resultados de sua interação, sem qualquer código verdadeiro como supervisão. Essa abordagem permite um treinamento flexível e escalável e possibilita que o testador de unidades aprenda diretamente com os erros do codificador. Nossos modelos derivados ReasonFlux-Coder-7B e 14B melhoram a precisão da geração de código em 5,3% e a precisão Best-of-N em 9,0% após a otimização nos modelos Qwen2.5-Instruct, superando os modelos Qwen-Coder, DeepSeek-Coder e Seed-Coder de tamanho similar. Eles se estendem naturalmente para tarefas subsequentes, como escalonamento em tempo de teste e codificação agentiva, alcançando uma melhoria de 8,1% em relação ao modelo base. Para o modelo long-CoT, nosso ReasonFlux-Coder-4B supera consistentemente o Qwen3-4B enquanto alcança 64,8% de eficiência de inferência na geração de testes unitários. Notavelmente, também descobrimos que nosso modelo pode servir como um modelo de recompensa eficaz para aprendizagem por reforço em modelos base. Projeto: https://github.com/Gen-Verse/CURE
Os avanços recentes em conteúdo gerado por IA (AIGC) aceleraram significativamente a produção de animações. Para criar animações envolventes, é essencial gerar clipes de vídeo multi-cena coerentes com roteiros narrativos e referências de personagens. No entanto, os conjuntos de dados públicos existentes focam principalmente em cenários do mundo real com descrições globais e carecem de imagens de referência para orientação consistente dos personagens. Para preencher essa lacuna, apresentamos o AnimeShooter, um conjunto de dados de animação multi-cena guiado por referências. O AnimeShooter apresenta anotações hierárquicas abrangentes e forte consistência visual entre as cenas por meio de um pipeline automatizado. As anotações em nível de história fornecem uma visão geral da narrativa, incluindo o enredo, cenas-chave e perfis dos personagens principais com imagens de referência, enquanto as anotações em nível de cena decompõem a história em cenas consecutivas, cada uma anotada com cena, personagens e legendas visuais narrativas e descritivas. Além disso, um subconjunto dedicado, o AnimeShooter-audio, oferece trilhas de áudio sincronizadas para cada cena, juntamente com descrições de áudio e fontes sonoras. Para demonstrar a eficácia do AnimeShooter e estabelecer uma linha de base para a tarefa de geração de vídeo multi-cena guiado por referências, introduzimos o AnimeShooterGen, que aproveita Modelos de Linguagem Multimodais de Grande Escala (MLLMs) e modelos de difusão de vídeo. A imagem de referência e as cenas previamente geradas são primeiro processadas pelo MLLM para produzir representações cientes tanto da referência quanto do contexto, que são então usadas como condição para o modelo de difusão decodificar a cena subsequente. Os resultados experimentais mostram que o modelo treinado no AnimeShooter alcança consistência visual superior entre as cenas e aderência à orientação visual de referência, destacando o valor do nosso conjunto de dados para a geração de vídeos animados coerentes.
Apresentamos a síntese de imagens em resolução nativa, um novo paradigma de modelagem generativa que permite a síntese de imagens em resoluções e proporções de aspecto arbitrárias. Essa abordagem supera as limitações dos métodos convencionais de imagens quadradas com resolução fixa, ao lidar nativamente com tokens visuais de comprimento variável, um desafio central para as técnicas tradicionais. Para isso, introduzimos o Transformer de Difusão em Resolução Nativa (NiT), uma arquitetura projetada para modelar explicitamente diferentes resoluções e proporções de aspecto em seu processo de remoção de ruído. Livre das restrições de formatos fixos, o NiT aprende distribuições visuais intrínsecas a partir de imagens que abrangem uma ampla gama de resoluções e proporções de aspecto. Notavelmente, um único modelo NiT alcança simultaneamente o estado da arte nos benchmarks ImageNet-256x256 e 512x512. Surpreendentemente, semelhante às robustas capacidades zero-shot observadas em modelos avançados de linguagem de grande escala (LLMs), o NiT, treinado exclusivamente no ImageNet, demonstra excelente desempenho de generalização zero-shot. Ele gera com sucesso imagens de alta fidelidade em resoluções altas previamente não vistas (por exemplo, 1536 x 1536) e diversas proporções de aspecto (por exemplo, 16:9, 3:1, 4:3), conforme mostrado na Figura 1. Esses achados indicam o potencial significativo da modelagem em resolução nativa como uma ponte entre a modelagem generativa visual e as metodologias avançadas de LLMs.
A geração de vídeos longos tem ganhado crescente atenção devido às suas amplas aplicações em áreas como entretenimento e simulação. Apesar dos avanços, a síntese de sequências longas temporalmente coerentes e visualmente atraentes continua sendo um desafio formidável. Abordagens convencionais frequentemente sintetizam vídeos longos gerando e concatenando sequencialmente clipes curtos, ou gerando quadros-chave e interpolando os quadros intermediários de maneira hierárquica. No entanto, ambas as abordagens ainda enfrentam desafios significativos, resultando em problemas como repetição temporal ou transições não naturais. Neste artigo, revisitamos o pipeline hierárquico de geração de vídeos longos e introduzimos o LumosFlow, um framework que incorpora explicitamente a orientação de movimento. Especificamente, empregamos primeiro o Large Motion Text-to-Video Diffusion Model (LMTV-DM) para gerar quadros-chave com intervalos de movimento maiores, garantindo assim a diversidade de conteúdo nos vídeos longos gerados. Dada a complexidade de interpolar transições contextuais entre quadros-chave, decompomos ainda mais a interpolação de quadros intermediários em geração de movimento e refinamento pós-processamento. Para cada par de quadros-chave, o Latent Optical Flow Diffusion Model (LOF-DM) sintetiza fluxos ópticos complexos e de grande movimento, enquanto o MotionControlNet refina os resultados deformados para melhorar a qualidade e orientar a geração de quadros intermediários. Em comparação com a interpolação tradicional de quadros de vídeo, alcançamos uma interpolação de 15x, garantindo movimento razoável e contínuo entre quadros adjacentes. Experimentos mostram que nosso método pode gerar vídeos longos com movimento e aparência consistentes. Códigos e modelos serão disponibilizados publicamente após a aceitação. Nossa página do projeto: https://jiahaochen1.github.io/LumosFlow/
Inspirado pelo mecanismo de aprendizado em contexto de modelos de linguagem de grande escala (LLMs), um novo paradigma de edição de imagens baseada em prompts visuais generalizáveis está emergindo. Os métodos existentes que utilizam uma única referência geralmente se concentram em ajustes de estilo ou aparência e enfrentam dificuldades com transformações não rígidas. Para abordar essas limitações, propomos aproveitar pares de imagens fonte-alvo para extrair e transferir a intenção de edição consciente do conteúdo para novas imagens de consulta. Para isso, introduzimos o RelationAdapter, um módulo leve que permite que modelos baseados em Diffusion Transformer (DiT) capturem e apliquem efetivamente transformações visuais a partir de exemplos mínimos. Também apresentamos o Relation252K, um conjunto de dados abrangente que compreende 218 tarefas de edição diversas, para avaliar a generalização e adaptabilidade do modelo em cenários orientados por prompts visuais. Experimentos no Relation252K mostram que o RelationAdapter melhora significativamente a capacidade do modelo de entender e transferir a intenção de edição, resultando em ganhos notáveis na qualidade de geração e no desempenho geral da edição.
Os Modelos de Difusão têm alcançado resultados notáveis na síntese de vídeo, mas exigem etapas iterativas de remoção de ruído, resultando em uma sobrecarga computacional significativa. Os Modelos de Consistência têm feito progressos importantes na aceleração dos modelos de difusão. No entanto, aplicá-los diretamente aos modelos de difusão de vídeo frequentemente resulta em uma degradação severa da consistência temporal e dos detalhes de aparência. Neste artigo, ao analisar a dinâmica de treinamento dos Modelos de Consistência, identificamos um conflito fundamental na dinâmica de aprendizado durante o processo de destilação: há uma discrepância significativa nos gradientes de otimização e nas contribuições de perda em diferentes intervalos de tempo. Essa discrepância impede que o modelo estudante destilado atinja um estado ideal, levando a uma consistência temporal comprometida e a detalhes de aparência degradados. Para resolver esse problema, propomos um Modelo de Consistência de Duplo Especialista (DCM) eficiente em termos de parâmetros, onde um especialista semântico se concentra em aprender o layout semântico e o movimento, enquanto um especialista em detalhes se dedica ao refinamento de detalhes finos. Além disso, introduzimos a Perda de Coerência Temporal para melhorar a consistência de movimento do especialista semântico e aplicamos a Perda GAN e a Perda de Correspondência de Características para aprimorar a qualidade de síntese do especialista em detalhes. Nossa abordagem alcança a melhor qualidade visual com um número significativamente reduzido de etapas de amostragem, demonstrando a eficácia da especialização de especialistas na destilação de modelos de difusão de vídeo. Nosso código e modelos estão disponíveis em https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.
Conjuntos de dados de alta qualidade são fundamentais para o treinamento e avaliação de modelos de aprendizado de máquina, mas sua criação — especialmente com anotações humanas precisas — continua sendo um desafio significativo. Muitas submissões de artigos sobre conjuntos de dados carecem de originalidade, diversidade ou controle de qualidade rigoroso, e essas deficiências são frequentemente negligenciadas durante a revisão por pares. As submissões também frequentemente omitem detalhes essenciais sobre a construção e as propriedades dos conjuntos de dados. Embora ferramentas existentes, como as "datasheets", visem promover a transparência, elas são em grande parte descritivas e não fornecem métodos padronizados e mensuráveis para avaliar a qualidade dos dados. Da mesma forma, os requisitos de metadados em conferências promovem a responsabilidade, mas são aplicados de forma inconsistente. Para abordar essas limitações, este artigo de posicionamento defende a integração de métricas de avaliação sistemáticas e baseadas em rubricas no processo de revisão de conjuntos de dados — especialmente à medida que os volumes de submissões continuam a crescer. Também exploramos métodos escaláveis e econômicos para a geração de dados sintéticos, incluindo ferramentas dedicadas e abordagens de "LLM como juiz", para apoiar uma avaliação mais eficiente. Como um chamado à ação, introduzimos o DataRubrics, uma estrutura estruturada para avaliar a qualidade de conjuntos de dados gerados por humanos e por modelos. Aproveitando os avanços recentes na avaliação baseada em LLMs, o DataRubrics oferece uma solução reproduzível, escalável e acionável para a avaliação da qualidade de conjuntos de dados, permitindo que autores e revisores mantenham padrões mais elevados em pesquisas centradas em dados. Também disponibilizamos código para apoiar a reprodutibilidade das avaliações baseadas em LLMs em https://github.com/datarubrics/datarubrics.
Modelos de difusão de texto para vídeo são notoriamente limitados em sua capacidade de modelar aspectos temporais, como movimento, física e interações dinâmicas. As abordagens existentes lidam com essa limitação retreinando o modelo ou introduzindo sinais de condicionamento externos para impor consistência temporal. Neste trabalho, exploramos se uma representação temporal significativa pode ser extraída diretamente das previsões de um modelo pré-treinado, sem qualquer treinamento adicional ou entradas auxiliares. Apresentamos o FlowMo, um novo método de orientação sem treinamento que melhora a coerência do movimento utilizando apenas as próprias previsões do modelo em cada etapa de difusão. O FlowMo primeiro deriva uma representação temporal desviada de aparência, medindo a distância entre latentes correspondentes a quadros consecutivos. Isso destaca a estrutura temporal implícita prevista pelo modelo. Em seguida, estima a coerência do movimento medindo a variância por fragmentos ao longo da dimensão temporal e orienta o modelo a reduzir essa variância dinamicamente durante a amostragem. Experimentos extensos em vários modelos de texto para vídeo demonstram que o FlowMo melhora significativamente a coerência do movimento sem sacrificar a qualidade visual ou o alinhamento com o prompt, oferecendo uma solução eficaz de plug-and-play para aprimorar a fidelidade temporal de modelos de difusão de vídeo pré-treinados.
As técnicas de difusão de vídeo avançaram significativamente nos últimos anos; no entanto, elas enfrentam dificuldades para gerar imagens realistas de acidentes de carro devido à escassez de eventos de colisão na maioria dos conjuntos de dados de direção. Melhorar a segurança no trânsito exige simulações de acidentes realistas e controláveis. Para abordar esse problema, propomos o Ctrl-Crash, um modelo de geração de vídeos de acidentes de carro controlável que se baseia em sinais como caixas delimitadoras, tipos de colisão e um quadro inicial de imagem. Nossa abordagem permite a geração de cenários contrafactuais, onde pequenas variações na entrada podem levar a resultados de colisão drasticamente diferentes. Para suportar um controle refinado durante a inferência, utilizamos orientação livre de classificador com escalas ajustáveis independentemente para cada sinal de condicionamento. O Ctrl-Crash alcança desempenho de ponta em métricas quantitativas de qualidade de vídeo (por exemplo, FVD e JEDi) e em medições qualitativas baseadas em avaliação humana de realismo físico e qualidade de vídeo, em comparação com métodos anteriores baseados em difusão.
A geração de código com modelos de linguagem de grande escala (LLMs), frequentemente chamada de "vibe coding", está sendo cada vez mais adotada em produção, mas falha em garantir a qualidade do código, especialmente em aspectos de segurança (por exemplo, vulnerabilidades de injeção SQL) e de manutenção (por exemplo, anotações de tipo ausentes). Métodos existentes, como ajuste fino supervisionado e pós-processamento baseado em regras, dependem de anotações intensivas em mão de obra ou heurísticas frágeis, limitando sua escalabilidade e eficácia. Propomos o REAL, um framework de aprendizado por reforço que incentiva LLMs a gerar código de qualidade para produção usando feedback guiado por análise de programas. Especificamente, o REAL integra dois sinais automatizados: (1) análise de programas que detecta defeitos de segurança ou manutenção e (2) testes unitários que garantem a correção funcional. Diferente de trabalhos anteriores, nosso framework é independente de prompts e livre de referências, permitindo supervisão escalável sem intervenção manual. Experimentos em múltiplos conjuntos de dados e escalas de modelos demonstram que o REAL supera métodos state-of-the-art em avaliações simultâneas de funcionalidade e qualidade de código. Nosso trabalho preenche a lacuna entre prototipagem rápida e código pronto para produção, permitindo que LLMs entreguem tanto velocidade quanto qualidade.
A destilação de conhecimento (KD, do inglês Knowledge Distillation) é uma estrutura amplamente utilizada para treinar modelos compactos e específicos para tarefas, aproveitando o conhecimento de modelos professores. No entanto, sua aplicação ao aprendizado ativo (AL, do inglês Active Learning), que visa minimizar os custos de anotação por meio da seleção iterativa de amostras, permanece pouco explorada. Essa lacuna decorre do fato de que a KD geralmente pressupõe o acesso a dados rotulados suficientes, enquanto o AL opera em cenários de escassez de dados, onde modelos professores específicos para tarefas frequentemente não estão disponíveis. Neste artigo, introduzimos o ActiveKD, uma estrutura que integra o AL com a KD, aproveitando as capacidades de zero-shot e few-shot de grandes modelos de visão e linguagem (VLMs, do inglês Vision-Language Models). Um aspecto fundamental do ActiveKD é o viés de predição estruturada dos VLMs — ou seja, suas previsões formam agrupamentos no espaço de probabilidade. Consideramos essa estrutura como um viés indutivo do modelo professor, capturando padrões de saída generalizáveis que são benéficos para o aprendizado do modelo estudante. Para explorar esse viés, propomos o Probabilistic CoreSet (PCoreSet), uma estratégia de seleção que maximiza a cobertura no espaço de probabilidade em vez do espaço de características. O PCoreSet seleciona estrategicamente amostras não rotuladas com diversidade categórica, facilitando uma transferência mais eficiente do conhecimento do professor sob orçamentos limitados de anotação. Avaliações em 11 conjuntos de dados mostram que o PCoreSet supera consistentemente os métodos de seleção existentes dentro da estrutura do ActiveKD, avançando a pesquisa na interseção entre AL e KD.
Modelos de linguagem de grande escala estão rapidamente se tornando a base para agentes inteligentes capazes de utilizar ferramentas. No entanto, treinar esses agentes é desafiador, pois requer a criação e anotação humana de um conjunto diversificado de tarefas, ferramentas e critérios de avaliação. Neste artigo, propomos o framework Self-Challenging para treinar um agente em tarefas de alta qualidade geradas por ele mesmo. O agente primeiro assume o papel de desafiador e gera uma tarefa após interagir com as ferramentas fornecidas. As tarefas assumem a forma de uma nova classe geral de problemas denominada Code-as-Task, que são definidos por uma instrução, uma função de verificação e casos de solução e falha que servem como testes, permitindo filtrar apenas tarefas de alta qualidade. O agente então assume o papel de executor e treina nessas tarefas com aprendizado por reforço, utilizando o feedback de avaliação como recompensa. A avaliação em dois benchmarks existentes de agentes que utilizam ferramentas em múltiplas interações, M3ToolEval e TauBench, mostra que o framework Self-Challenging alcança uma melhoria de mais de duas vezes no modelo Llama-3.1-8B-Instruct, apesar de usar apenas dados de treinamento autogerados.
Apresentamos o MoCA-Video (Alinhamento de Conceitos com Consciência de Movimento em Vídeo), uma estrutura livre de treinamento que preenche a lacuna entre a mistura semântica no domínio de imagens e vídeos. Dado um vídeo gerado e uma imagem de referência fornecida pelo usuário, o MoCA-Video injeta as características semânticas da imagem de referência em um objeto específico dentro do vídeo, preservando o movimento original e o contexto visual. Nossa abordagem utiliza um cronograma de redução de ruído diagonal e segmentação agnóstica de classes para detectar e rastrear objetos no espaço latente e controlar com precisão a localização espacial dos objetos mesclados. Para garantir coerência temporal, incorporamos correções semânticas baseadas em momento e estabilização de ruído residual gama para transições suaves entre quadros. Avaliamos o desempenho do MoCA utilizando as métricas padrão SSIM, LPIPS em nível de imagem, LPIPS temporal e introduzimos uma nova métrica, CASS (Pontuação de Deslocamento de Alinhamento Conceitual), para avaliar a consistência e eficácia das mudanças visuais entre o prompt de origem e os quadros modificados do vídeo. Utilizando um conjunto de dados autoconstruído, o MoCA-Video supera as bases de comparação atuais, alcançando consistência espacial superior, movimento coerente e uma pontuação CASS significativamente mais alta, apesar de não ter treinamento ou ajuste fino. O MoCA-Video demonstra que a manipulação estruturada na trajetória de ruído de difusão permite a síntese de vídeo controlável e de alta qualidade.
A velocidade de geração dos LLMs é limitada pela decodificação autoregressiva, onde os tokens são previstos sequencialmente, um por um. Alternativamente, os modelos de linguagem de grande escala baseados em difusão (dLLMs) teoricamente permitem a geração paralela de tokens, mas, na prática, lutam para alcançar a velocidade dos modelos autoregressivos sem sacrificar significativamente a qualidade. Portanto, introduzimos a decodificação paralela adaptativa (APD), um método novo que ajusta dinamicamente o número de tokens amostrados em paralelo. Isso é alcançado definindo uma mistura multiplicativa entre as probabilidades marginais do dLLM e a probabilidade conjunta de sequências sob um pequeno modelo autoregressivo auxiliar. Isso inverte a configuração padrão da decodificação especulativa, onde o objetivo é amostrar de um verificador autoregressivo grande usando rascunhos de um modelo menor. Otimizamos ainda mais o APD ao habilitar o cache de KV e limitar o tamanho da entrada mascarada. No geral, nosso método apresenta três parâmetros ajustáveis para equilibrar de forma flexível a taxa de transferência e a qualidade. Demonstramos que o APD oferece uma taxa de transferência significativamente maior com degradações mínimas de qualidade em benchmarks downstream.
A aquisição de dados de simulação robótica do mundo real por meio de teleoperação é notoriamente demorada e trabalhosa. Recentemente, modelos generativos orientados por ações ganharam ampla adoção no aprendizado e simulação de robôs, pois eliminam preocupações com segurança e reduzem os esforços de manutenção. No entanto, as sequências de ações utilizadas nesses métodos frequentemente resultam em precisão de controle limitada e generalização deficiente devido ao seu alinhamento globalmente grosseiro. Para abordar essas limitações, propomos o ORV, um framework de geração de vídeo robótico centrado em ocupação, que utiliza sequências de ocupação semântica 4D como uma representação refinada para fornecer orientação semântica e geométrica mais precisa para a geração de vídeos. Ao aproveitar representações baseadas em ocupação, o ORV permite a tradução contínua de dados de simulação em vídeos robóticos fotorrealistas, garantindo alta consistência temporal e controlabilidade precisa. Além disso, nosso framework suporta a geração simultânea de vídeos multi-visão de operações de agarramento robótico - uma capacidade importante para tarefas subsequentes de aprendizado robótico. Resultados experimentais extensivos demonstram que o ORV supera consistentemente os métodos de linha de base existentes em vários conjuntos de dados e sub-tarefas. Demonstração, Código e Modelo: https://orangesodahub.github.io/ORV
As abordagens atuais de autocorreção em text-to-SQL enfrentam duas limitações críticas: 1) Os métodos convencionais de autocorreção dependem de chamadas recursivas de LLMs, resultando em sobrecarga computacional multiplicativa, e 2) Os LLMs têm dificuldade em implementar detecção e correção eficazes de erros para consultas SQL declarativas, pois não conseguem demonstrar o caminho de raciocínio subjacente. Neste trabalho, propomos o SHARE, um assistente de correção hierárquica de ações baseado em SLM que permite que os LLMs realizem localização de erros mais precisa e correção eficiente. O SHARE orquestra três Small Language Models (SLMs) especializados em um pipeline sequencial, onde primeiro transforma consultas SQL declarativas em trajetórias de ações passo a passo que revelam o raciocínio subjacente, seguido por um refinamento granular em duas fases. Além disso, propomos uma nova estratégia hierárquica de auto-evolução para treinamento eficiente em termos de dados. Os resultados experimentais demonstram que o SHARE melhora efetivamente as capacidades de autocorreção, mostrando-se robusto em vários LLMs. Além disso, nossa análise abrangente mostra que o SHARE mantém um desempenho forte mesmo em configurações de treinamento com poucos recursos, o que é particularmente valioso para aplicações text-to-SQL com restrições de privacidade de dados.
Modelos de Linguagem de Grande Escala (LLMs) recentemente alcançaram progressos notáveis ao aproveitar o Aprendizado por Reforço e técnicas estendidas de Cadeia de Pensamento (CoT). No entanto, o desafio de realizar raciocínio linguístico eficiente—especialmente durante a inferência com saídas extremamente longas—tem atraído crescente atenção da comunidade de pesquisa. Neste trabalho, propomos um pipeline de treinamento baseado em razão dinâmica que não depende de anotações de dados sofisticadas ou interpolação entre múltiplos modelos. Nós equilibramos continuamente os pesos entre os dados do Sistema-1 e do Sistema-2 do modelo para eliminar processos de raciocínio redundantes, preservando a capacidade de raciocínio do modelo. Validamos nossa abordagem em modelos como o DeepSeek-R1-Distill-7B e DeepSeek-R1-Distill-14B e em um conjunto diversificado de benchmarks com níveis variados de dificuldade. Nosso método reduz significativamente o número de tokens de saída em quase 40%, mantendo a precisão do raciocínio. Nosso código e dados estarão disponíveis em breve.
Visualizações desempenham um papel crucial na comunicação eficaz de conceitos e informações. Avanços recentes em raciocínio e geração aumentada por recuperação permitiram que Modelos de Linguagem de Grande Escala (LLMs) realizassem pesquisas profundas e gerassem relatórios abrangentes. Apesar do progresso, os frameworks existentes de pesquisa profunda focam principalmente na geração de conteúdo apenas em texto, deixando a geração automatizada de textos intercalados com visualizações pouco explorada. Essa nova tarefa apresenta desafios fundamentais no design de visualizações informativas e na integração eficaz delas com relatórios textuais. Para abordar esses desafios, propomos a Descrição Formal de Visualização (FDV), uma representação textual estruturada de gráficos que permite que LLMs aprendam e gerem visualizações diversas e de alta qualidade. Com base nessa representação, introduzimos o Multimodal DeepResearcher, um framework agentivo que decompõe a tarefa em quatro estágios: (1) pesquisa, (2) textualização de relatório exemplar, (3) planejamento e (4) geração de relatório multimodal. Para a avaliação dos relatórios multimodais gerados, desenvolvemos o MultimodalReportBench, que contém 100 tópicos diversos como entradas, juntamente com 5 métricas dedicadas. Experimentos extensivos em modelos e métodos de avaliação demonstram a eficácia do Multimodal DeepResearcher. Notavelmente, utilizando o mesmo modelo Claude 3.7 Sonnet, o Multimodal DeepResearcher alcança uma taxa geral de vitória de 82% sobre o método de baseline.
Com o lançamento do R1, um modelo de raciocínio em larga escala (LRM) disponível publicamente, os pesquisadores comumente treinam novos LRMs ao treinar modelos de linguagem nas longas cadeias de pensamento (CoT) do R1. Embora trabalhos anteriores demonstrem que as capacidades dos LRMs podem ser reproduzidas por meio de destilação direta, a dependência contínua dos modelos existentes (por exemplo, R1) permanece uma limitação crítica no avanço do campo. Como um primeiro passo em direção ao desenvolvimento independente de LRMs, este artigo explora a possibilidade de construir um conjunto de dados de CoT longo com LLMs que não são treinados para escalonamento em tempo de inferência. Para isso, apresentamos o Long CoT Collection, um conjunto de dados de 100 mil racionais CoT anotados usando LLMs de CoT curto existentes. Desenvolvemos um pipeline que introduz as novas estratégias de raciocínio do o1 em LLMs de CoT curto, permitindo que eles pensem por mais tempo e introduzindo controlabilidade sobre o orçamento de pensamento para melhor gerenciar o problema de excesso de pensamento. Nossas análises extensivas validam que nosso conjunto de dados alcança qualidade comparável—ou ligeiramente inferior—ao R1. Além disso, nossos experimentos demonstram que o treinamento em nosso conjunto de dados não apenas fortalece habilidades gerais de raciocínio, mas também fornece uma base sólida para o aprendizado por reforço—modelos inicializados com nossos dados alcançam ganhos 2-3 vezes maiores com RLVR.
Descobertas recentes em modelos de linguagem de grande escala (LLMs) têm melhorado significativamente suas habilidades de raciocínio, especialmente em problemas matemáticos e lógicos que possuem respostas verificáveis, por meio de técnicas como ajuste fino supervisionado (SFT) e aprendizado por reforço (RL). Pesquisas anteriores indicam que o RL internaliza efetivamente estratégias de busca, permitindo raciocínios de cadeia de pensamento (CoT) longos, com o retrocesso surgindo naturalmente como uma capacidade aprendida. No entanto, os benefícios precisos do retrocesso, especificamente o quanto ele contribui para melhorias no raciocínio e a extensão ideal de seu uso, ainda são pouco compreendidos. Neste trabalho, investigamos sistematicamente a dinâmica entre SFT e RL em oito tarefas de raciocínio: Countdown, Sudoku, Arc 1D, Geometria, Rotação de Cubo de Cores, Funções de Lista, Quebra-Cabeças Zebra e Autorreferência. Nossos resultados destacam que sequências curtas de CoT usadas no SFT como preparação têm uma contribuição moderada para o treinamento de RL, em comparação com o RL iniciado do zero; no entanto, essa contribuição diminui à medida que as tarefas se tornam cada vez mais difíceis. Motivados por essa observação, construímos conjuntos de dados sintéticos que variam sistematicamente no número de etapas de retrocesso e realizamos experimentos controlados para isolar a influência da correção (conteúdo) ou da estrutura (ou seja, frequência de retrocesso). Descobrimos que (1) CoT mais longos com retrocessos geralmente induzem um treinamento de RL melhor e mais estável, (2) problemas mais desafiadores com espaços de busca maiores tendem a precisar de um número maior de retrocessos durante a fase de SFT. Além disso, demonstramos por meio de experimentos com dados destilados que o treinamento de RL é pouco afetado pela correção de sequências longas de CoT, sugerindo que o RL prioriza padrões estruturais em vez da correção do conteúdo. Coletivamente, nossos resultados oferecem insights práticos para projetar estratégias de treinamento ideais para escalar efetivamente o raciocínio em LLMs.
A compreensão de vídeos de longa duração apresenta desafios significativos devido à complexidade temporal-espacial extensa e à dificuldade de responder a perguntas em contextos tão prolongados. Embora os Modelos de Linguagem de Grande Escala (LLMs) tenham demonstrado avanços consideráveis nas capacidades de análise de vídeo e no manuseio de contextos longos, eles continuam a exibir limitações ao processar vídeos de uma hora densos em informações. Para superar essas limitações, propomos o agente Deep Video Discovery (DVD) para aproveitar uma estratégia de busca agentica sobre clipes de vídeo segmentados. Diferente de agentes de vídeo anteriores que projetavam manualmente um fluxo de trabalho rígido, nossa abordagem enfatiza a natureza autônoma dos agentes. Ao fornecer um conjunto de ferramentas centradas em busca em um banco de dados de vídeo multi-granular, nosso agente DVD aproveita a capacidade avançada de raciocínio do LLM para planejar com base em seu estado de observação atual, selecionar estrategicamente ferramentas, formular parâmetros apropriados para ações e refinar iterativamente seu raciocínio interno à luz das informações coletadas. Realizamos uma avaliação abrangente em vários benchmarks de compreensão de vídeos longos que demonstram a vantagem do design do sistema como um todo. Nosso agente DVD alcança desempenho de estado da arte (SOTA), superando significativamente trabalhos anteriores por uma grande margem no desafiador conjunto de dados LVBench. Estudos abrangentes de ablação e análises aprofundadas de ferramentas também são fornecidos, oferecendo insights para avançar ainda mais agentes inteligentes adaptados para tarefas de compreensão de vídeos de longa duração. O código será lançado posteriormente.
A recuperação semântica é crucial para aplicações modernas, mas ainda permanece pouco explorada nas pesquisas atuais. Os conjuntos de dados existentes são limitados a idiomas únicos, imagens únicas ou condições de recuperação singulares, muitas vezes falhando em explorar plenamente a capacidade expressiva da informação visual, como evidenciado pelo desempenho mantido quando as imagens são substituídas por legendas. No entanto, cenários práticos de recuperação frequentemente envolvem consultas intercaladas com múltiplas condições e várias imagens. Portanto, este artigo introduz o MERIT, o primeiro conjunto de dados multilíngue para recuperação semântica intercalada com múltiplas condições, composto por 320.000 consultas com 135.000 produtos em 5 idiomas, abrangendo 7 categorias distintas de produtos. Experimentos extensivos no MERIT identificam uma limitação dos modelos existentes: o foco exclusivo em informações semânticas globais, enquanto negligenciam elementos condicionais específicos nas consultas. Consequentemente, propomos o Coral, uma nova estrutura de ajuste fino que adapta MLLMs pré-treinados, integrando reconstrução de embeddings para preservar elementos condicionais detalhados e aprendizado contrastivo para extrair semânticas globais abrangentes. Experimentos demonstram que o Coral alcança uma melhoria de desempenho de 45,9% em relação às abordagens convencionais no MERIT, com fortes capacidades de generalização validadas em 8 benchmarks de recuperação estabelecidos. Coletivamente, nossas contribuições - um novo conjunto de dados, a identificação de limitações críticas nas abordagens existentes e uma estrutura inovadora de ajuste fino - estabelecem uma base para pesquisas futuras em recuperação semântica intercalada com múltiplas condições.
O pré-treinamento contrastivo de linguagem-imagem alinha as características de pares texto-imagem em um espaço latente comum por meio de codificadores distintos para cada modalidade. Embora essa abordagem alcance desempenho impressionante em várias tarefas de zero-shot, ela não consegue lidar nativamente com entradas multimodais, ou seja, codificar imagem e texto em um único vetor de características. Como solução, é prática comum usar módulos adicionais para mesclar as características extraídas pelos codificadores unimodais. Neste trabalho, apresentamos o FuseLIP, uma arquitetura alternativa para incorporação multimodal. Aproveitando os recentes avanços em tokenizadores discretos de imagem, propomos o uso de um único modelo transformer que opera em um vocabulário estendido de tokens de texto e imagem. Essa abordagem de fusão precoce permite que as diferentes modalidades interajam em cada profundidade de codificação e obtenham representações mais ricas em comparação com a fusão tardia comum. Coletamos novos conjuntos de dados para pré-treinamento e avaliação multimodal, projetando tarefas desafiadoras para modelos de codificação multimodal. Mostramos que o FuseLIP supera outras abordagens em tarefas de incorporação multimodal, como VQA e recuperação de transformação de imagem guiada por texto, enquanto é comparável às linhas de base em tarefas unimodais.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) levaram ao desenvolvimento de novos benchmarks para avaliar seu desempenho no domínio financeiro. No entanto, os benchmarks financeiros atuais frequentemente dependem de artigos de notícias, relatórios de resultados ou anúncios, o que torna desafiador capturar a dinâmica do mundo real das reuniões financeiras. Para abordar essa lacuna, propomos um novo benchmark chamado M^3FinMeeting, que é um conjunto de dados multilíngue, multissetorial e multitarefa projetado para a compreensão de reuniões financeiras. Primeiro, o M^3FinMeeting suporta inglês, chinês e japonês, aprimorando a compreensão de discussões financeiras em diversos contextos linguísticos. Segundo, ele abrange vários setores da indústria definidos pelo Global Industry Classification Standard (GICS), garantindo que o benchmark cubra uma ampla gama de atividades financeiras. Por fim, o M^3FinMeeting inclui três tarefas: sumarização, extração de pares pergunta-resposta (QA) e resposta a perguntas, facilitando uma avaliação mais realista e abrangente da compreensão. Resultados experimentais com sete LLMs populares revelam que mesmo os modelos de contexto longo mais avançados têm espaço significativo para melhoria, demonstrando a eficácia do M^3FinMeeting como um benchmark para avaliar as habilidades de compreensão de reuniões financeiras dos LLMs.
Os paradigmas atuais de Ajuste Fino por Reforço (RFT) para Modelos de Linguagem de Grande Escala (LLMs) sofrem com a ineficiência amostral devido à exposição redundante de consultas idênticas sob amostragem uniforme de dados. Embora trabalhos anteriores tenham explorado o aprendizado curricular por meio de métricas heurísticas de dificuldade, essas estratégias apresentam limitações ao negligenciar os sinais intrínsecos de aprendizado gerados pelo próprio modelo, levando assim a regimes de treinamento subótimos. Neste artigo, identificamos um sinal inerente ao modelo denominado concentração angular, que reflete efetivamente a capacidade de um LLM de aprender a partir de dados específicos. Demonstramos teoricamente e empiricamente uma correlação entre a distribuição angular dos vetores de estado oculto dos tokens e o gradiente resultante, revelando uma preferência de aprendizado por dados que exibem maior concentração angular. Inspirados por essa descoberta, propomos o GAIN-RL, um framework de Reforço Navegado Informado por Ângulo e Orientado por Gradiente. Ao aproveitar o sinal intrínseco de concentração angular do modelo, o GAIN-RL seleciona dinamicamente os dados de treinamento em cada época, garantindo atualizações de gradiente consistentemente impactantes e, assim, melhorando significativamente a eficiência geral do treinamento. Avaliações empíricas mostram que o GAIN-RL (GRPO) alcança uma aceleração de mais de 2,5x na eficiência de treinamento em diversas tarefas matemáticas e de codificação e em diferentes escalas de modelo. Além disso, a amostragem eficiente do GAIN-RL (GRPO) resulta em um treinamento com uso eficiente de dados, alcançando melhor desempenho com metade dos dados originais em comparação com o GRPO padrão com todos os dados de treinamento. O código está disponível em https://github.com/wangqinsi1/GAINRL/tree/main.
A cultura é um domínio rico e dinâmico que evolui tanto geográfica quanto temporalmente. No entanto, os estudos existentes sobre compreensão cultural com modelos de visão e linguagem (VLMs) enfatizam principalmente a diversidade geográfica, muitas vezes negligenciando as dimensões temporais críticas. Para preencher essa lacuna, apresentamos o Hanfu-Bench, um novo conjunto de dados multimodal curado por especialistas. O Hanfu, uma vestimenta tradicional que abrange as antigas dinastias chinesas, serve como um patrimônio cultural representativo que reflete os aspectos temporais profundos da cultura chinesa, ao mesmo tempo que permanece altamente popular na sociedade contemporânea chinesa. O Hanfu-Bench compreende duas tarefas principais: compreensão visual cultural e transcriação de imagens culturais. A primeira tarefa examina o reconhecimento de características culturais temporais com base em entradas de imagem única ou múltipla por meio de questionários de múltipla escolha com respostas visuais, enquanto a segunda se concentra na transformação de trajes tradicionais em designs modernos por meio da herança de elementos culturais e adaptação ao contexto moderno. Nossa avaliação mostra que os VLMs fechados têm desempenho comparável ao de não especialistas na compreensão visual cultural, mas ficam 10\% aquém dos especialistas humanos, enquanto os VLMs abertos ficam ainda mais atrás dos não especialistas. Para a tarefa de transcriação, uma avaliação humana multifacetada indica que o modelo com melhor desempenho alcança uma taxa de sucesso de apenas 42\%. Nosso benchmark fornece um ambiente de teste essencial, revelando desafios significativos nessa nova direção de compreensão cultural temporal e adaptação criativa.
Os avanços recentes em Modelos Multimodais de Grande Escala (LMMs) têm permitido um raciocínio eficaz entre visão e linguagem, mas a capacidade de compreender conteúdo de vídeo ainda é limitada por estratégias subótimas de seleção de quadros. As abordagens existentes frequentemente dependem de heurísticas estáticas ou módulos externos de recuperação para fornecer informações de quadros aos video-LLMs, o que pode falhar em fornecer informações relevantes à consulta. Neste trabalho, introduzimos o ReFoCUS (Reinforcement-guided Frame Optimization for Contextual UnderStanding), uma nova estrutura de otimização de política em nível de quadro que desloca o alvo de otimização das respostas textuais para a seleção de entrada visual. O ReFoCUS aprende uma política de seleção de quadros por meio de aprendizado por reforço, utilizando sinais de recompensa derivados de um LMM de referência para refletir as preferências intrínsecas do modelo por quadros que melhor suportam respostas temporalmente fundamentadas. Para explorar de forma eficiente o grande espaço combinatório de quadros, empregamos uma arquitetura de seleção condicional autoregressiva que garante coerência temporal enquanto reduz a complexidade. Nossa abordagem não requer supervisão explícita em nível de quadro e melhora consistentemente o desempenho de raciocínio em vários benchmarks de QA de vídeo, destacando os benefícios de alinhar a seleção de quadros com a utilidade interna do modelo.
Este artigo tem como objetivo abordar os desafios de subpensamento e superpensamento em cadeias longas de raciocínio (CoT) para Modelos de Raciocínio de Grande Escala (LRMs) através da introdução de Campos de Controle de Raciocínio (RCF)--uma nova abordagem em tempo de teste que injeta sinais de controle estruturados para guiar o raciocínio a partir de uma perspectiva de busca em árvore. O RCF permite que os modelos ajustem o esforço de raciocínio de acordo com as condições de controle fornecidas ao resolver tarefas complexas. Além disso, apresentamos o conjunto de dados Control-R-4K, que consiste em problemas desafiadores anotados com processos de raciocínio detalhados e campos de controle correspondentes. Para aprimorar ainda mais o controle de raciocínio, propomos um método de Ajuste Fino por Destilação Condicional (CDF), que treina o modelo--especificamente o Control-R-32B--para ajustar efetivamente o esforço de raciocínio durante o tempo de teste. Resultados experimentais em benchmarks como AIME2024 e MATH500 demonstram que nossa abordagem alcança desempenho de ponta na escala de 32B, ao mesmo tempo que permite um processo de raciocínio de Longa CoT (L-CoT) controlável. No geral, este trabalho introduz um paradigma eficaz para o dimensionamento controlável de raciocínio em tempo de teste.
Os métodos existentes de interpolação utilizam priors de difusão de vídeo pré-treinados para gerar quadros intermediários entre quadros-chave esparsamente amostrados. Na ausência de orientação geométrica 3D, esses métodos lutam para produzir resultados plausíveis para movimentos humanos complexos e articulados, oferecendo controle limitado sobre a dinâmica sintetizada. Neste artigo, apresentamos o PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), uma nova estrutura que integra sinais de orientação humana 3D no processo de difusão para Interpolação de Quadros-Chave Centrada no Humano e Controlável (CHKI). Para fornecer pistas espaciais e estruturais ricas para a interpolação, nosso PoseFuse3D, um modelo de controle informado por 3D, apresenta um novo codificador SMPL-X que transforma a geometria e a forma 3D no espaço de condicionamento latente 2D, juntamente com uma rede de fusão que integra essas pistas 3D com embeddings de pose 2D. Para avaliação, construímos o CHKI-Video, um novo conjunto de dados anotado com poses 2D e parâmetros SMPL-X 3D. Mostramos que o PoseFuse3D-KI supera consistentemente as baselines state-of-the-art no CHKI-Video, alcançando uma melhoria de 9% no PSNR e uma redução de 38% no LPIPS. Ablações abrangentes demonstram que nosso modelo PoseFuse3D melhora a fidelidade da interpolação.
As complexidades inerentes da escrita árabe; sua natureza cursiva, marcas diacríticas (tashkeel) e tipografia variada, apresentam desafios persistentes para o Reconhecimento Óptico de Caracteres (OCR). Apresentamos o Qari-OCR, uma série de modelos de visão e linguagem derivados do Qwen2-VL-2B-Instruct, progressivamente otimizados para o árabe por meio de ajustes finos iterativos em conjuntos de dados sintéticos especializados. Nosso modelo principal, QARI v0.2, estabelece um novo estado da arte em código aberto com uma Taxa de Erro de Palavra (WER) de 0,160, Taxa de Erro de Caractere (CER) de 0,061 e pontuação BLEU de 0,737 em textos ricos em diacríticos. O Qari-OCR demonstra um tratamento superior de tashkeel, fontes diversas e layouts de documentos, além de um desempenho impressionante em imagens de baixa resolução. Explorações adicionais (QARI v0.3) mostram um forte potencial para a compreensão estrutural de documentos e textos manuscritos. Este trabalho oferece uma melhoria significativa na precisão e eficiência do OCR árabe, com todos os modelos e conjuntos de dados liberados para promover pesquisas futuras.
Investigamos se o sucesso de um processo de Chain-of-Thought (CoT) zero-shot pode ser previsto antes de sua conclusão. Descobrimos que um classificador de sondagem, baseado em representações de LLMs, tem um bom desempenho mesmo antes que um único token seja gerado, sugerindo que informações cruciais sobre o processo de raciocínio já estão presentes nas representações iniciais. Em contraste, uma linha de base forte baseada em BERT, que depende exclusivamente dos tokens gerados, tem um desempenho pior, provavelmente porque se baseia em pistas linguísticas superficiais em vez de dinâmicas de raciocínio mais profundas. Surpreendentemente, o uso de etapas posteriores de raciocínio nem sempre melhora a classificação. Quando o contexto adicional não é útil, as representações iniciais se assemelham mais às posteriores, sugerindo que os LLMs codificam informações-chave precocemente. Isso implica que o raciocínio pode frequentemente parar mais cedo sem perda. Para testar isso, realizamos experimentos de parada antecipada, mostrando que truncar o raciocínio CoT ainda melhora o desempenho em relação a não usar CoT, embora haja uma lacuna em comparação com o raciocínio completo. No entanto, abordagens como aprendizado supervisionado ou aprendizado por reforço projetadas para encurtar cadeias de CoT poderiam aproveitar a orientação do nosso classificador para identificar quando a parada antecipada é eficaz. Nossas descobertas fornecem insights que podem apoiar tais métodos, ajudando a otimizar a eficiência do CoT enquanto preservam seus benefícios.
Grandes modelos de recomendação têm estendido os LLMs (Large Language Models) como poderosos sistemas de recomendação por meio de codificação ou geração de itens, e os recentes avanços no raciocínio de LLMs motivam simultaneamente a exploração do raciocínio em sistemas de recomendação. Estudos atuais geralmente posicionam os LLMs como módulos externos de raciocínio para fornecer pensamentos auxiliares, aprimorando os pipelines convencionais de recomendação. No entanto, esses projetos desacoplados são limitados pelo alto custo de recursos e pela otimização conjunta subótima. Para resolver esses problemas, propomos o \name, um modelo unificado de recomendação de grande escala com capacidades intrínsecas de raciocínio. Inicialmente, reconceituamos a arquitetura do modelo para facilitar o raciocínio intercalado e a recomendação no processo autoregressivo. Em seguida, propomos o RecPO, um framework de aprendizado por reforço correspondente que otimiza o \name tanto para capacidades de raciocínio quanto de recomendação simultaneamente em uma única atualização de política; o RecPO introduz um esquema de recompensa fundida que utiliza apenas rótulos de recomendação para simular a capacidade de raciocínio, eliminando a dependência de anotações especializadas de raciocínio. Experimentos em três conjuntos de dados com várias linhas de base verificam a eficácia do \name, mostrando melhorias relativas de 68,67% em Hit@5 e 45,21% em NDCG@20. O código está disponível em https://github.com/YRYangang/RRec.
Editar imagens com instruções para refletir movimentos não rígidos, mudanças de perspectiva da câmera, deformações de objetos, articulações humanas e interações complexas representa um problema desafiador e ainda pouco explorado na visão computacional. As abordagens e conjuntos de dados existentes focam predominantemente em cenas estáticas ou transformações rígidas, limitando sua capacidade de lidar com edições expressivas que envolvem movimento dinâmico. Para preencher essa lacuna, apresentamos o ByteMorph, um framework abrangente para edição de imagens baseada em instruções, com ênfase em movimentos não rígidos. O ByteMorph compreende um conjunto de dados em larga escala, o ByteMorph-6M, e um modelo de linha de base robusto construído sobre o Diffusion Transformer (DiT), denominado ByteMorpher. O ByteMorph-6M inclui mais de 6 milhões de pares de edição de imagens em alta resolução para treinamento, juntamente com um benchmark de avaliação cuidadosamente curado, o ByteMorph-Bench. Ambos capturam uma ampla variedade de tipos de movimento não rígido em diversos ambientes, figuras humanas e categorias de objetos. O conjunto de dados é construído utilizando geração de dados guiada por movimento, técnicas de composição em camadas e legendagem automatizada para garantir diversidade, realismo e coerência semântica. Além disso, realizamos uma avaliação abrangente de métodos recentes de edição de imagens baseada em instruções, tanto do meio acadêmico quanto comercial.
O desenvolvimento de ferramentas eficazes de explicabilidade para Transformers é uma busca crucial na pesquisa de aprendizado profundo. Uma das abordagens mais promissoras nesse domínio é a Propagação de Relevância por Camadas (Layer-wise Relevance Propagation - LRP), que propaga escores de relevância de forma retroativa pela rede até o espaço de entrada, redistribuindo valores de ativação com base em regras predefinidas. No entanto, os métodos existentes baseados em LRP para explicabilidade de Transformers ignoram completamente um componente crítico da arquitetura Transformer: sua codificação posicional (Positional Encoding - PE), resultando na violação da propriedade de conservação e na perda de um tipo importante e único de relevância, que também está associado a características estruturais e posicionais. Para abordar essa limitação, reformulamos o espaço de entrada para explicabilidade de Transformers como um conjunto de pares posição-token. Isso nos permite propor regras de LRP especializadas e teoricamente fundamentadas, projetadas para propagar atribuições em vários métodos de codificação posicional, incluindo PE Rotacional, Aprendível e Absoluta. Experimentos extensivos com classificadores ajustados e modelos de base zero-shot, como o LLaMA 3, demonstram que nosso método supera significativamente o estado da arte em tarefas de explicabilidade tanto em visão computacional quanto em PLN. Nosso código está disponível publicamente.
O aprendizado em contexto (In-context Learning - ICL) é uma capacidade importante, mas ainda não totalmente compreendida, dos modelos de linguagem de grande escala (Large Language Models - LLMs) pré-treinados. Ele pode melhorar significativamente o desempenho em tarefas utilizando alguns exemplos, denominados demonstrações, sem a necessidade de ajuste fino. Embora seja eficaz em tarefas de resposta a perguntas, o ICL frequentemente tem desempenho inferior em tarefas de geração de texto longo, como sumarização. Sob suposições apropriadamente realistas, demonstramos empiricamente e teoricamente que as demonstrações de ICL por si só são insuficientes para ensinar aos LLMs as distribuições de linguagem e formato da tarefa para geração. Argumentamos pela exposição explícita às distribuições da tarefa e hipotetizamos que defini-las por meio de prompts melhora o desempenho do modelo. Para isso, apresentamos o LongGuide, que gera eficientemente dois fluxos paralelos de diretrizes que capturam as propriedades de linguagem e formato da tarefa: (i) Diretrizes de Métricas (Metric Guidelines - MGs) que instruem os modelos a otimizar métricas autoavaliadas; e (ii) Diretrizes de Restrições de Saída (Output Constraint Guidelines - OCGs) que restringem a geração tanto no nível de tokens quanto no nível de frases. O LongGuide seleciona automaticamente a melhor combinação de diretrizes, melhorando tanto LLMs de código aberto quanto de código fechado em mais de 5% em configurações zero-shot e few-shot. Mostramos que o LongGuide é generalizável, pode ser aprendido por modelos fracos para aprimorar modelos fortes e se integra sinergicamente com otimizadores automáticos de prompts.