【Pythonで利用」Googlecloudvisionのapiocr!AIで利用

世の中には、文字をスキャンしてテキスト化してくれる便利なアプリがあります。
昨今では、googleのAIを搭載した『文字スキャン』というアプリがリリースされたらしいのです。

世の中AIで便利になりますよね。

光学文字認識OCR とは

光学文字認識(こうがくもじにんしき、Optical character recognition)は、活字の文書の画像(通常イメージスキャナーで取り込まれる)を文字コードの列に変換するソフトウェアである。

具体的には、画像の中から文字を見つけ出して、文字データに変換する技術です。単純にスキャンした場合、書類などは画像として読み込まれます。でも、OCR処理をすることで画像の中にあるテキスト部分を数字や文字として読み込むことが可能になります。

AIを活用したOCRはなに?

各種申込書類やアンケートをはじめ医療機関での問診票など様々な手書き書類の読み取りに対応可能で、AIにより文字列として入力してくれます

Google Cloud Vision API

GCP が提供するサービスの一つで、機械学習により画像から分析情報を抽出する以下のような機能を提供します。

  • 乗り物や動物など、画像に写っているさまざまなカテゴリの物体(「ヨット」や「ライオン」、「エッフェル塔」など)を検出
  • アダルト コンテンツから暴力的なコンテンツまで、さまざまなタイプの不適切なコンテンツを検出
  • 著名人やロゴ、ニュース イベントなどの時事的なエンティティを検出
  • 光学式文字認識(OCR)機能による画像内のテキストを検出

今回はこれらの機能のうちの OCR機能 について検証してみました。

具体的には下記のようにOCRも含まれています。

サービス名 説明
物体検知 画像に写っている物体が何なのか(犬?猫? etc)を検知
文章検知(OCR) 画像内の文字や文章を検知
表情・感情検知 画像内に写っている人物の表情や感情を検知
場所検知 画像内の構造物から場所(名所)を検知
ロゴ検知 画像内のロゴを検知
有害検知 画像内にアダルトコンテンツやバイオレンスな表現がないかを検知

まとめ

SEOで不正なサイトも見つけやすくなるのでしょうか。

(Visited 15 times, 1 visits today)

シェアする

  • このエントリーをはてなブックマークに追加

フォローする