OpenAI lança novo modelo multimodal com compreensão de vídeo em tempo real
Juliana Mendes
1 comentário
A inteligência artificial deu mais um salto impressionante. A Associated Press reporta que a OpenAI lançou um novo modelo multimodal capaz de processar e compreender vídeos em tempo real, identificando objetos, ações, emoções e até contexto narrativo enquanto as cenas se desenrolam.
O sistema, chamado GPT-Vision Pro, pode descrever o que está acontecendo em um vídeo ao vivo, responder perguntas sobre o conteúdo e até prever o que pode acontecer a seguir com base no contexto. A latência é inferior a 100 milissegundos, tornando a interação praticamente instantânea.
As aplicações são vastas: desde legendagem automática avançada para deficientes auditivos até sistemas de segurança que detectam comportamentos suspeitos em tempo real. Empresas de mídia já estão testando a ferramenta para moderação de conteúdo e criação de resumos automáticos de transmissões ao vivo.