mobilephones
記事

「Google鼻歌検索」はどうやって曲を認識している?

沿って mobilephones 18/09/2022 546 ビュー

フンフン……と鼻歌でくるりの「WORLD'S END SUPERNOVA」を歌ってみると、見事ヒットしました

「鼻歌検索」を使うには、モバイルデバイスの最新GoogleアプリやGoogle検索からマイクアイコンをタップし、「この曲は何?」と話しかけるか、「曲を検索」ボタンで起動します。また、Googleアシスタントに「この曲は何?」と話しかけてもOK。あとは10~15秒ほどハミングすると、検索結果が表示されます(たまにヒットしないこともあります)。

この鼻歌を検索する裏側で何が起こっているのか? 11月12日、Googleが鼻歌検索についての技術説明を行いました。

鼻歌のメロディを数列化して楽曲とマッチング

鼻歌検索では、楽曲のスタジオ音源から音色や楽器の音を排除して、機械学習モデルを使いメロディを数列化。これをデータベースとし、ユーザーが検索時に歌うメロディも数列化し、両者の数列が一致するものをデータベースから検出することで、「この曲なのでは?」と探している曲を提案します。

「Google鼻歌検索」はどうやって曲を認識している?

同じメロディから変換された数列は、近い数字で構成され、別のメロディから変換された数列は遠い数字で構成されます。数列化にあたっては音程や声質などのメロディ以外の情報が排除。メロディにあたる部分を表す数列によるマッチングのため、千差万別となる個人の歌う能力が問われないのもポイントです。

機械学習モデルの開発は、Google AI チームによる楽曲認識(Music recognition)がベース。付近で流れている音楽を検出する「この曲なに?(Now Playing)」(2017年)や、検索範囲を拡大した「サウンド検索」(2018年)から技術を進化させたものといいます。

というと簡単そうにみえますが、Google シニア プロダクトマネージャーのクリシュナ クマール氏によると「相当な時間の(機械学習のための)トレーニングを行いリリースまで到達した。(これまでリリースした楽曲検索と今回の鼻歌検索では)実際の顔による顔認証と、イラストによる顔認証くらいの違いがある」という難しい技術だそうです。初期段階では(歌声検索はできても)鼻歌による検索は難しかったため、人が歌う実際の楽曲から鼻歌楽曲を生成するアプローチも実施。また鼻歌についても幅広いサンプルを収集し、テストを重ねて精度を挙げていったとのこと。

マッチングはクラウド側で実施。実際に使ってみると、鼻歌だけではうまくマッチングしないこともありましたが、歌詞をいれて歌うとマッチングの精度は上がる印象です。現在は、歌う時間が10秒から12秒ほど必要ですが、Googleでは鼻歌時間の短縮化も図りたいといいます。

鼻歌検索は現在Androidでのみ利用可能。iOSは英語のみの対応ですが、今後iOSでもリリースが予定されています。

関連記事

iPhoneを機種変更するとき、LINEなどのSNSアプリ関連で注意することは? - いまさら聞けないiPhoneのなぜ

インフルエンサー支援プラットフォーム「BitStar」運営、グローバル・ブレインから3億円を資金調達——新人YouTuber発掘と海外展開を強化へ | BRIDGE(ブリッジ)テクノロジー&スタートアップ情報