人気の音声認識APIトップ10のリストをつくりました。 1.Siri API 2.Speech to Text API 3.Rev.AI API 4.Speech2Topics API 5.Text-to-Speech API 6.SpeechAPI 7.Wit API 8.IBM Watson API 9.Google Speech API 10.ReadSpeaker API Google の AI テクノロジーを搭載した API を利用すると、音声を正確にテキストに変換できます。, Google 最新のディープ ラーニングのニューラル ネットワーク アルゴリズムを利用して、自動音声認識(ASR)を実現します。, 125 以上の言語や言語変種に対応する音声認識を使用して、世界中のユーザーにアクセスできます。, クラウドなら API、オンプレミスなら Speech-to-Text On-Prem を使用して、どこにでも必要な場所に音声認識をデプロイできます。, ヒントを提供することで、分野特有の用語やあまり使われない単語を音声文字変換するように音声認識をカスタマイズし、特定の単語やフレーズの音声文字変換の精度を向上できます。クラスを使用して音声の数字を住所、年、通貨などに自動的に変換します。, 音声制御や通話と動画の音声文字変換のために、ドメイン固有の品質要件に合わせて最適化されたトレーニング済みモデルが用意されており、その中から選択できます。たとえば、拡張通話モデルは 8 kHz のサンプリング レートで録音された通話など、テレフォニーから発信された音声向けに調整されています。, アプリケーションのマイクからストリーミングした音声入力や、事前に録音した音声ファイルをインラインや Cloud Storage から取得した音声入力を API が処理するのに伴って、音声認識の結果をリアルタイムに受け取ることができます。, 独自のプライベート データセンターで直接、オンプレミスの Google の音声認識技術を活用しながら、インフラストラクチャと保護された音声データを完全に制御できます。使用を開始する方法については、営業担当者までお問い合わせください。, Voximplant は、Speech-to-Text により、お客様が音声ソリューションを構築して処理できる通話件数を増やしています。, InteractiveTel は、Speech-to-Text を利用して、音声通信の正確な分析を提供してクライアントへの顧客満足度を向上させています。, Ananda Development は、Speech-to-Text と Vision API を使用して、分譲マンションの検査を自動化、合理化するモバイル アプリケーションを作成しました。, Google Cloud のニュースレターにご登録いただくと、サービスの最新情報、イベント情報、スペシャル オファーなどを受け取ることができます。, Next '20 OnAir: 音声文字変換の精度測定と改善 Youtube動画の自動字幕とかでも使われている。 2. Help us understand the problem. TBSの音声認識API比較システム「もじひかクン」を開発. まず画面左上の[ツールとサービス] > [Storage] > [ブラウザ] を選択し、[バケットの作成]でバケットを作成し、その作成したバケットをダブルクリックして、[ファイルのアップロード]から音声データをアップロードする。, Google Cloud Shell上で文字起こし実行用のPythonスクリプトを作成します。, Google Cloud Console 上で下記コマンドにて文字起こしを実行します。, 実行後にGoogle Cloud Console 上 ls コマンドで作成されたファイル確認すると[output*.txt]という名前のテキストファイルができているので、それを開いて結果が確認できます。最初の1~2分の結果は下記でした。音源と合わせて聞くとちょっとしたところは間違いもありますが、概ね文字起こしされている点確認できます。. 英語の講演や会議に参加し録音した音源を文字データとして保管しておく手段の一つとしてGoogle Cloud Speech API を使った音声の文字起こしの記事が参考になったので、自分なりに下記に手順をまとめ直しておきます(手順メモ)。, 本手順では Google Cloud Platform を利用するため、Google Cloud Platform の簡単スタートアップガイドのサービス共通編(P9-P20)を終えて、プロジェクトが作成済みとします。, 下記形式に変換済みの音源が作成済みとします(参考:音声変換サイト、 実際に利用した音源(PyConJP2017英語基調講演))。, Google Cloud Platform URL にアクセスして[コンソールを開く]を押して、コンソール画面に入ります。, コンソール画面左上の[ツールとサービス] > [APIとサービス] > [ライブラリ] を選択し、APIの一覧から[Speech API]を選択し、[有効にする]を押して Google Speech API を有効にします。, [APIとサービス] > [ダッシュボード] でGoogle Speech APIの有効化が確認できる:, 左の[APIとサービス] > [認証情報] > [認証情報を作成] > [サービスアカウントキー]を選択し、適当な[サービスアカウント名](ここでは仮にarkbbbとした)を設定し、作成ボタンを押してJSONファイルをダウンロードする。, Google Cloud Platform コンソール画面右上部の Google Cloud Shellボタンで Google Cloud Shell を起動し、3.で取得したJSONをアップロードし、環境変数に設定する, 事前準備した音声データを Google Cloud Storage にアップロードします。 今回文字起こしをするために用いたAPIは以下の6つです。 Google Cloud Speech-to-Text; Watson Speech to Text; Bing Speech API; Amazon Transcribe; NTT SpeechRec; AmiVoice; 前半4つまでは比較的有名だと思います。後半2つは無料で公開しているものはなく、その企業と直接やり取りすることでライセンスキーをもらうことでAPI … 目的 . 動画を見る, コマンドラインから gcloud ツールを使用して、Speech-to-Text に音声文字変換リクエストを送信します。, Speech-to-Text を使用して音声文字変換をする際のベスト プラクティスを確認します。, Speech-to-Text で利用できる言語に加えて、各言語で使用可能な機能と認識モデルについて学習します。, Google の音声認識技術をオンプレミス ソリューションに簡単に統合できる Speech-to-Text On-Prem について学習します。, IVR(インタラクティブ音声レスポンス)とエージェントの会話をコールセンターに追加することにより、カスタマー サービス システムを強化します。会話データを分析し、通話と顧客についてより多くの分析情報を得ます。Speech-to-Text と拡張通話モデルは、Google Cloud の強力なソリューションである Contact Center AI に搭載されています。, 「音量を上げて」などの音声コマンドや「パリの気温は?」などの音声検索を実装します。これに Text-to-Speech API を組み合わせて、IoT(モノのインターネット)アプリケーションで音声対応のエクスペリエンスを提供します。, 音声や動画の音声文字変換を行い、字幕を入れ、視聴者のリーチとエクスペリエンスを向上させます。リアルタイムで字幕をストリーミング コンテンツに追加します。動画の音声文字変換モデルは動画や複数話者のコンテンツのインデックス作成または字幕作成に適しており、YouTube の動画字幕作成機能に似た機械学習技術を使用します。, 音声文字変換は、毎月、正常に処理された最初の 60 分間は無料で、その後、音声 15 秒ごとに料金が発生します。具体的なレートは、使用するモデル、データログがあるかどうか、音声チャンネルの数によって異なります。, $300 分の無料クレジットと 20 以上の Always Free プロダクトを活用して Google Cloud で構築を開始しましょう。, エネルギー企業向けのマルチクラウド ソリューションとハイブリッド ソリューション。, ウェブ ホスティング、アプリ開発、AI、分析など、中小規模ビジネス向けのソリューションをご覧ください。, コンテナ、サーバーレス、サービス メッシュなどのクラウドネイティブな技術を使用して、どこでもアプリケーションを開発して実行できます。, インフラストラクチャとアプリケーション レベルのシークレットを暗号化、保存、管理、監査します。, 企業のデータを安全性、信頼性、可用性に優れた、フルマネージド型のデータサービスによって移行、管理します。, オペレーショナル データベース インフラストラクチャをモダナイズするためのアップグレード。, エンタープライズ グレードのサポートが付属する、フルマネージドのオープンソース データベース。, Google Cloud で SQL Server 仮想マシンを稼働するためのオプション。, 医療業界がこの厳しい試練に打ち勝てるようサポートするための Google のソリューション。, SAP、VMware、Windows、Oracle などのワークロードをソリューションで迅速に移行できます。, あらゆるワークロードをサポートする、コンピューティング、ストレージ、ネットワーキングのオプション。, デスクトップとアプリケーション(VDI と DaaS)用のリモートワーク ソリューション。, 人間のために設計され、効果をもたらすソリューションを使用して、チームの働き方を改革します。, ビジネス向けの Chrome OS、Chrome ブラウザ、Chrome デバイス。, 分析を大幅に簡易化する、サーバーレスでフルマネージドのアナリティクス プラットフォームを使用して、あらゆる規模のデータから分析情報を即時に生成します。, MySQL、PostgreSQL、SQL Server 用のリレーショナル データベース サービス。, クラウド サービスとアプリ用のイベント ドリブン型コンピューティング プラットフォーム。, 費用対効果の高い方法でディープ ラーニング モデルと機械学習モデルをトレーニングするための、あらゆるビジネス向けのオプション。, 既存の医療システムと Google Cloud のアプリを結びつけるためのソリューション。, バッチジョブやフォールト トレラントなワークロード向けのコンピューティング インスタンス。, Google Cloud 上で特殊なワークロードを実行するためのインフラストラクチャ。, Google Cloud に VMware ワークロードを移行し、ネイティブに実行。, 事前に構築されたデプロイ テンプレートを備え、統合請求の機能が組み込まれているコンテナ化アプリ。, Kubernetes ネイティブのクラウドベース ソフトウェアを作成するためのコンポーネント。, Kubernetes アプリケーションを作成、実行、デバッグするための IDE サポート。, Apache Spark クラスタと Apache Hadoop クラスタを実行するためのサービス。, Apache Airflow で構築された、ワークフロー オーケストレーション サービス。, ビッグデータの保存に適した低レイテンシの NoSQL ワイドカラム データベース。, モバイルアプリとウェブ アプリケーションのデータ向けの NoSQL ドキュメント データベース。, Google Cloud 上のコンテナ イメージ用限定公開 Docker ストレージ。, CI / CD パイプラインを宣言するための Kubernetes ネイティブ リソース。, Google Cloud 上の Visual Studio での開発を可能にするツール。, Eclipse IDE 内で利用する Google Cloud 開発用プラグイン。, IntelliJ 内で本番環境クラウドアプリをデバッグするための IDE サポート。, 既存の医療システムと Google Cloud 上のアプリを結びつけるためのソリューション。, モバイル デバイスから Google Cloud サービスを管理するためのアプリ。, Google Kubernetes Engine で動作するゲームサーバー管理サービス。, データを BigQuery に移行するスケジュールを設定してデータを移行するデータ インポート サービス。, Deployment Manager 用と Terraform 用のリファレンス テンプレート。, オンラインやオンプレミスのソースから Cloud Storage へのデータ移行。, VM と物理サーバーを Compute Engine に移行するためのコンポーネント。, 信頼できるネーム ルックアップを低レイテンシで提供するドメイン ネーム システム(DNS)。, プライベート インスタンスのインターネット アクセスを可能にする NAT サービス。, Google Cloud リソースとクラウドベース サービス用の仮想ネットワーク。, Google Cloud の監査、プラットフォーム、アプリケーション ログの管理。, アプリケーションのパフォーマンスを分析するための CPU とヒープ プロファイラ。, Google Cloud サービスと、お客様のワークロードに対するその影響をモニタリングする SLI。, Managed Service for Microsoft Active Directory, Microsoft® Active Directory(AD)を実行するためのセキュリティ強化されたサービス。, サーバーレス プロダクトと API サービスのワークフロー オーケストレーション。, Google Cloud で動作する仮想マシン インスタンスのためのブロック ストレージ。, Speech-to-Text と Text-to-Speech でアクセシビリティ対応の通話の課題を解決, アプリケーションのマイクからストリーミングした音声入力や、事前に録音した音声ファイル(インラインや Cloud Storage)から取得した音声入力を API が処理するのに伴って、音声認識の結果をリアルタイムに受け取ることができます。, ヒントを提供することで、分野特有の用語やあまり使われない単語を音声文字変換するように音声認識をカスタマイズし、特定の単語やフレーズの音声文字変換の精度を, Speech-to-Text はマルチチャネルの状況(ビデオ会議など)で個別のチャネルを認識し、音声文字変換にアノテーションを付けて順序を維持できます。, Speech-to-Text は雑音の多い音声も正常に処理できます。ノイズ除去の必要はありません。, 音声制御や通話と動画の音声文字変換のために、ドメイン固有の品質要件に合わせて最適化された, 冒とくフィルタは音声データ内の不適切なコンテンツや職業倫理に反するコンテンツを検出し、テキスト結果の冒とく的な語句をフィルタで除外するのに役立ちます。, 言語コードを 4 種類まで指定することで、Speech-to-Text は音声言語を正しく自動識別します。, Speech-to-Text は音声文字変換テキストに正確に句読点(カンマ、疑問符、ピリオドなど)を付けることができます。, ビジネスがデジタル変革に乗り出したばかりのお客様も、すでに変革を進めているお客様も、Google Cloud のソリューションとテクノロジーで成功への道筋をつけることができます。, ハイブリッド クラウドやマルチクラウドの実現、インテリジェントな分析情報の提供、従業員の接続環境の維持といったソリューションにより、ビジネスの回復を加速させ、より良い未来へとつなげます。, Google の安全でインテリジェントなプラットフォームを使って今すぐ始めましょう。新規のお客様は $300 相当の無料クレジットを利用して、あらゆる GCP プロダクトをお試しいただけます。. For details, see the Google Developers Site Policies. © 2020 Rakuten RapidAPI. •使いやすさ:人間の声を認識するための各APIの統合のしやすさを調べました。, Siri by Voice Actionsは、ユーザーが自然言語の音声コマンドを使用して、AppleのSiriサービスと同様にさまざまなアクションを実行できるようにするインテリジェントな仮想アシスタントです。, API機能:Siri APIを使用すると、アプリケーションで自然言語の質問に答えることができます。ユーザーが最新の音声制御パーソナルアシスタントで必要とする便利な機能へのインターフェイスを提供します。 APIを使用すると、ユーザーが自分の電話またはコンピューターと会話し、音声ダイヤル連絡先、ナビゲーション情報の取得、画像の検索などのさまざまなアクションを実行できるアプリケーションを構築できます。さらに、文の分析とエンティティ抽出の実行に役立つメタデータを提供します。, 価格:Siri APIには無料でアクセスできますが、1日に30件のリクエストに制限されます。制限を引き上げるには、月額4.99ドルから月額99.99ドルまでの有料プランを利用できます。, 使いやすさ:Voice Actionsは、多くのハードルなしでAPIを迅速に統合する方法に関する詳細なドキュメントを提供しています。, Speech to Text APIは、名前が示すように、音声をテキストに変換できるシンプルなAPIです。, APIの機能:APIは機械学習テクノロジーを使用しており、音声を正確かつ高速に書き写します。 これを使用して、短い形式の音声と長い形式の音声の両方を変換できます。, サポートされる言語の数:Speech to Text APIは英語のみをサポートします。 すべてのアクセント(英国、米国、およびその他)を自動的に認識し、最小限の偏差で変換を実行できるようにします。, 価格:APIは無料で使用できますが、1か月あたり60分に制限されます。 より広範囲に使用する場合は、ULTRAプラン(月額500ドルで月額15,000分に制限)またはMEGAプラン(月額1500ドルで月額60,000分に制限)を選択できます。, 使いやすさ:APIは使いやすいです。 簡単にドキュメントを作成して、すぐに実装を開始できます。, Rev.AI APIを使用すると、開発者は堅牢な音声認識システムにアクセスして、音声合成機能をアプリケーションに組み込むことができます。, API機能:Rev.AI APIを使用すると、人間の声をテキスト転写にすばやく正確に変換し、オーディオおよびビデオコンテンツをさらに活用できます。 APIには、句読点と大文字のサポート、タイムスタンプの生成、複数の発言者を認識し、それぞれにテキストを関連付ける機能、ライブストリーミング中に音声をテキストに転写する機能など、幅広い素晴らしい機能が備わっています。, 価格:1か月あたり240の無料の15秒あたりのファイル期間クォータがあります。 それ以降は、それぞれ0.000875ドルで請求されます。, 使いやすさ:APIのすべてのパブリックメソッドとオブジェクトは、開発者が簡単かつ迅速に使用できるように十分に文書化されています。, Speech2Topics APIは、機械学習テクノロジーを使用して、可聴データの可視性を強化できる分析サービスです。, API機能:APIは、コールセンターコール、テキスト、オーディオ、ビデオコンテンツなど、音声メディアからトピックメタデータを抽出します。 したがって、ビジネスインテリジェンスの決定に使用できる重要な洞察を提供します。 たとえば、メタデータを使用して、ターゲットを絞った広告を作成し、ユーザーインタラクションを強化するUX機能を作成し、ブランド感情のニーズを満たすために関連するYouTubeビデオをマイニングできます。, サポートされている言語の数:Speech2Topics APIは、限られた数の言語をサポートしています。, 価格:APIの機能をテストするための無料試用アカウントがあります。 その後、特定の価格についてYactraqに問い合わせる必要があります。, 使いやすさ:Yactraqは、APIドキュメントを使用して、可聴データの潜在的な可能性を明らかにするためにAPIの使用を開始する方法に関するオンラインカスタマーサポートを提供します。, Voice RSS Text-to-Speech APIは、名前が示すとおり、テキストコンテンツを音声に変換できるシンプルなAPIです。, API機能:APIが提供する音声合成システムを活用して、通常の言語のテキストを人間の音声に変換できます。 ほんの数行のコードで、APIに接続し、アプリケーションが聴覚情報を提供できるようにすることができます。, サポートされている言語の数:Text-to-Speech APIは、さまざまな人間の声を提供し、26の言語をサポートしています。, 価格:APIには無料でアクセスできますが、1日あたり350件のリクエストに制限されます。 より高度な機能にアクセスするには、月額5ドルから300ドルまでの有料プランを利用できます。, 使いやすさ:さまざまな一般的なプログラミング言語で提供される包括的なドキュメントがあり、任意のプラットフォームにAPIを迅速かつ簡単に統合できます。, SpeechAPIは、アプリケーションにノイズ抑制機能と音声分類機能を追加できるシンプルなAPIです。, API機能:SpeechAPIには、ファイルの音声を処理する機能が付属しています。 APIを使用して、ほぼすべての種類の音声ストリームからノイズを認識し、音声に影響を与えることなくノイズを除去できます。 APIは、通り過ぎる車、サイレン、泣いている子供、カフェテリアの背景雑音など、さまざまなソースからのノイズを自動的に抑制することができます。 さらに、SpeechAPIを使用すると、音声ファイル内の音声セグメントを認識し、感情、話者の言語、性別、年齢などのさまざまな特性に基づいて音声セグメントを分類できます。, 使いやすさ:プログラミングの手間をかけずにAPIを埋め込むことができるシンプルでわかりやすいドキュメントがあります。, Wit APIは、自然言語処理と音声インターフェイス機能を提供します。これを使用して、ユーザーの音声を解釈できるアプリケーションとデバイスを作成できます。, API機能:Wit APIを使用すると、最先端の自然言語インターフェイスをアプリケーションに含めることができます。これにより、ユーザーは複雑な手順を踏んだり、多くのボタンをクリックしたりすることなく、単に意思を表明するために話すことができます。たとえば、APIを使用して、音声制御のコマンド、ロボットダイアログインターフェイス、Siriスタイルのパーソナルアシスタントを作成できます。, 使いやすさ:Witは、包括的なドキュメント、わかりやすいチュートリアル、およびAPIの使用方法に関するコードサンプルを提供します。, IBM Watson Speech to Text APIを使用すると、音声をテキストに変換できるため、正確な音声認識機能を作業環境に組み込むことができます。, API機能:APIを使用すると、オーディオをリアルタイムで自動的に変換し、音声制御アプリケーションを構築し、音声認識モデルをカスタマイズしてコンテンツや言語の好みに合わせることができます。また、APIを使用して、マイクからの音声の転写、コールセンターの録音の転写、キーワードを使用した音声録音の分析など、さまざまな用途に使用できます。, サポートされる言語の数:IBM Watson APIは7つの言語をサポートします。, 価格:IBM Watson Speech to Text APIには、1か月あたり100分間の文字起こしが可能な無料プランがあります。より広範な使用のために、1分あたり0.02ドル(最大250,000分)から1分あたり0.01ドル(100万分以上)までのさまざまな価格帯があります。, 使いやすさ:IBMは、幅広いリソース、資料、およびSDKを提供して、迅速かつ簡単に開始できるよう支援しています。 APIを最大限に活用するのを支援できる開発者の活発なコミュニティもあります。, 公式にはCloud Speech-to-Textと呼ばれるGoogle Speech APIは、Googleの機械学習技術を使用して音声をテキストに変換できる強力なAPIです。, API機能:Google Cloud Speech-to-Text APIを使用すると、短形式または長形式のオーディオを比類のない精度でテキストに変換できます。 APIを使用すると、音声検索(「今何時」など)、コマンドユースケース(「音楽の再生を停止」など)、コールセンターからの音声の転写、さらに多くのアクションを実行できます。ファイルに保存されたリアルタイムの音声言語または音声を処理できます。, サポートされる言語の数:APIは、世界中の120の言語とバリアントを認識します。オーディオ内の言語の種類を自動的に検出できます(4言語に制限されています)。, 価格:Google Speech APIは、使用範囲に応じて毎月料金が設定されます。 0〜60分の処理は無料ですが、60秒以上は15秒ごとに0.006ドルです。, 使いやすさ:Googleは、APIの使用方法に関するコードサンプルが満載された広範なドキュメントを提供しています。さらに、統合の課題を解決できる活発な開発者コミュニティがあります。, ReadSpeaker speechCloud APIは、テキストを音声に変換し、ソフトウェアとデバイスの汎用性を高めることができるWebベースのAPIです。, API機能:APIを使用すると、書かれたテキストから生成されたオーディオファイルを読み取ることができる高品質の男性と女性の声にアクセスできます。 言語のカスタマイズ、読み取り速度の調整、オーディオ形式の変更など、生成されたオーディオを完全に制御できるいくつかのパラメーターが付属しています。, サポートされている言語の数:ReadSpeaker APIは、世界中の約20の言語とバリアントをサポートしています。, 価格:試用アカウントでAPIを無料で試すことができます。 長期間の使用については、特定の価格についてAPI作成者に問い合わせる必要があります。, 使いやすさ:テキストからオーディオへの変換機能を簡単に実装するのに役立つさまざまなプログラミング言語の簡単なドキュメントとサンプルコードがあります。, これが、Rakuten RapidAPIの人気の音声認識APIトップ10です。人間の言語をテキストに変換したり、音声制御アプリケーションを構築したり、その他の音声認識タスクを完了したりするために使用できるAPIを見つけていただければ幸いです。, Filed Under: API ブログ 関連タグ:Rev.ai, Siri, speech-to-text, エンタープライズ版を利用すると、社内APIや社内の複数部署に存在するAPIをセキュリティを担保しながら一元管理でき、プロダクトのリリースをより高速で行うことができます。.