
Acervo de vídeos
Multicedoc é a plataforma usada para o armazenamento e apresentação do acervo de vídeos. Renomeamos para MAM, e recebe alguns dos recursos que possuímos: reconhecimento facial, transcrição de áudio, compressão, filtros para pesquisas através da transcrição, entre outros.

Armazenamento
Temos servidores físicos e também em nuvem, com parcerias que provém segurança e plena acessibilidade. Além do armazenamento em storages físicos(locais), nosso sistema de armazenamento possui compatibilidade direta com os engines da Google Cloud Plataform (GCP) e Embratel, trazendo assim confiabilidade de serviço.

Compressão de vídeo
Um acervo de multimídia pode ser otimizado com a padronização de inputs. A compressão de vídeos é essencial, tanto para lidar com o tamanho dos storages, quanto para adaptar-se às extensões atuais. Em um exemplo comum de upload no sistema MAM, o vídeo que está sendo carregado é transformado em .mp4, assim reduzindo seu custo de espaço nos storages.

Conversão de áudio em texto
É feita a captura do áudio, tradução e transcrição do texto, sendo ‘embedada’ ao vídeo ou extraída para um arquivo de texto simples, separado. O processo de transcrição do áudio em texto é feita no processamento após o upload do vídeo no sistema MAM. O processo extrai o áudio do vídeo e transcreve em uma time line adaptada ao layout do sistema. Depois de transcrito, pode ser tratado, vindo daí traduções, filtros por palavras, pesquisas à partir de ‘tags’ ou palavras ditas nos discursos.

Tradução de idiomas
Durante o processo de transcrição, pode-se escolher e qual língua trabalhar. A legenda será extraída do áudio com idioma de sua preferência. A escolha do idioma que será extraído do áudio é escolha do cliente/usuário. Em consequência disso, as legendas e pesquisas feitas em cima do texto, são todos realizados no idioma escolhido.

Reconhecimento facial
Inteligência artificial capaz de detectar faces e a identificar. O reconhecimento facial vem se alastrando nas tecnologias de IA. No nosso caso, ele está trabalhando dentro do MAM, com essa mesma funcionalidade. Treina indivíduos para seu banco de dados, e se algum deles estiver em um vídeo, o script aponta, isso nos vídeos que foram baixados para o sistema, ou em real time.

Extração e organização de informações
O script que captura metadados dos vídeos e organiza em ‘tags’. À partir daí, pode-se ser feito pesquisas em cima dos dados capturados. Em termos técnicos, OCR é um acrónimo para o inglês Optical Character Recognition, é uma tecnologia para reconhecer caracteres a partir de um arquivo de imagem ou mapa de bits sejam eles escaneados, escritos a mão, datilografados ou impressos. Dessa forma, através do OCR é possível obter um arquivo de texto editável por um computador. No nosso caso, ele identifica caracteres no vídeo e traz para o sistema como texto. Dessa forma, podemos saber coisas do tipo, onde está o rótulo da coca-cola num vídeo de tempo indeterminado.

Pesquisa por metadados
A pesquisa por ‘tags’, ou palavras-chave, que são extraídas da transcrição do áudio. À partir do texto que foi transcrito no processo de conversão de áudio em texto,à partir do uso do OCR para capturarmos metainformações dos vídeos, à partir também das informações extraídas pelo reconhecimento facial, são adquiridas informações que concedem um filtro de pesquisa dentro da time line de cada texto. É possível fazer pesquisas filtradas dentro de vídeos separados, e também pesquisas em cima de um acervo crescente de vídeos. Por exemplo, encontrar vídeos por datas, ou pessoas.