「話者ダイアライゼーション」、リアルタイム認識でも利用可能に

2023年02月02日 19:00

アドバンスト・メディアの「AmiVoice Cloud Platform」で提供しているAmiVoice APIの無料オプション「話者ダイアライゼーション」機能が、リアルタイム認識でも利用できるようになった。

「話者ダイアライゼーション」は、複数の話者が含まれる音声に対して、誰がいつ話したのかを推定する技術。アドバンスト・メディア独自開発の音響モデルを用いて、事前学習なしで音声から発話者を推定し、発言内容と発話者を自動的に紐づける。会議や対面営業、面談、動画への字幕付与など、複数人が話をするシーンで利用できる。

従来は、バッチ認識でしか利用できなかったが、この度、リアルタイム認識でも利用できるようになった。音声ファイルをテキスト化する場合だけでなく、発話と同時に音声認識処理を行う場合でも話者ダイアライゼーション機能を利用することが可能になる。

AmiVoiceは25年以上のノウハウ・データが蓄積された高精度かつ高速の音声認識エンジン。ビジネスシーンや専門性の高い作業現場など幅広いシーンで使われている。録音された時間ではなく、発話のあった時間のみの従量課金制。課金単位も1秒単位で切り上げ計算なし。1時間99円（税込）～と、業界最低価格でありながら、高品質な音声認識エンジンを利用できる。様々なシーンやビジネスで使用できる「汎用エンジン」の他、医療分野など専門用語や業界用語に特化したエンジンを用意。詳しくはこちら。