Hejdaの見る夢

一人前のエンジニアを目指して頑張ったこととかをつらつら書くブログ

Video Indexer を使って、映像から音声を抽出してみた!! 📹

動機

昨今、さまざまな要因でオンライン勉強会が施行されるようになりました。

その中で、さまざまな分野で試行錯誤が練られていると思います。

多拠点での開催や、VRなどを使った方針、如何にストレス無く配信・視聴出来る仕組みづくり等々。

また、その技術やナレッジに関しても日々アップデートされています。

先週行われた、Serverless meetup #16 でも、初のオンライン開催され、とても好評でした。

この勉強会では Zoom と YouTube Live を用いた、多拠点での配信を行ってました。

わたしはたまたま、配信場所にお邪魔する機会があったので参加してきたのですが、とても貴重な経験をさせて頂きました。

多謝(-人-)

後日、動画を翻訳することで国内だけでなく全世界を視野にいれた配信が出来るのでは? という話になり、私が個人的に前から気になっていた Azure Media Services を使ってみいなと思っていました。

  • Azure Media Services

https://azure.microsoft.com/en-us/services/media-services/

その中で、まずは Video Indexer を用いて、映像から音声を文字おこしする作業をしてみます。

  • Video Indexer

https://azure.microsoft.com/en-us/services/media-services/video-indexer/

勉強に使った YouTube

くらでべ (クラウドデベロッパーちゃんねる)

www.youtube.com

Azure | Azure Media Services 基礎 (前編)

www.youtube.com

Azure | Azure Media Services基礎 (後編)

www.youtube.com

Tweet

動画を見ていて、特に気付きがあった点をつぶやいてました。

  • 前編を視聴している際のつぶやき

  • 後編を視聴している時のつぶやき

Video Indexer を試してみる

くらでべで学んだ結果、まずは Video Indexer を用いて動画の中の言語抽出をする必要があるようなので、試してみます。

https://azure.microsoft.com/en-us/services/media-services/video-indexer/

利用するステップは 3 ステップです。

  • Video Indexer にログイン
  • データのアップロード
  • 結果の確認

Video Indexer にログイン

https://azure.microsoft.com/en-us/services/media-services/ にアクセス

f:id:nari_kyu:20200301214217p:plain

自分のアカウントでログイン

f:id:nari_kyu:20200301214328p:plain

f:id:nari_kyu:20200301214342p:plain

f:id:nari_kyu:20200301214354p:plain

データのアップロード

アップロードに要する時間はご自身のネット環境に依存します。

今回の場合は 520MB の動画で 4 分ほどでアップロード出来ました。

f:id:nari_kyu:20200301214415p:plain

f:id:nari_kyu:20200301214432p:plain

そこから解析がスタートします。

解析中は以下のようなシークバーが出るので、終るまで気長に待ちます。

f:id:nari_kyu:20200301214455p:plain

解析は動画と同じくらいの時間で出来ました。

ただ、これはたまたまだったかもしれません。

結果の確認

こんな感じ

f:id:nari_kyu:20200301214535p:plain

映像の解析を行った結果、動画内の人を認識し、かつその動画内でその人が映っている箇所を特定出来るようにされています。

f:id:nari_kyu:20200301214805p:plain

文字起こしもかなり精度良く出来ています。

f:id:nari_kyu:20200301214837p:plain

文字起こしが間違っている場合は右上の鉛筆マークから修正を行うことが可能です。

f:id:nari_kyu:20200301215107p:plain

文字起こしのテキストも赤枠のところから、ダウンロードが可能です。

f:id:nari_kyu:20200301215200p:plain

f:id:nari_kyu:20200301215213p:plain

あとは、ローカルでさらに編集など行いましょう!!

まとめ

Video Indexer を使うことで、2 時間超えの映像も簡単に文字起こしが出来ました!!

本当に簡単にここまで出来ました!!

Azure すごい!!

この次はテキストを英語翻訳し、Azure Media Services を用いて映像に載せていくようにしてみます!! (`・ω・´)ゞ