街づくりの参道
  • TOPページ
  • ブログ
  • プロフィール
  • 木になる芽
  • 街づくりあれこれ(新着)
  • フォト
  • こんな店
  • 迷ったら
  • 好きな街
  • 街角の珍景
  • 勘違い
  • 企業あれこれ(新着)
  • 番外編~視点
  • つぶやき(最新)
2019/05/02

テキスト翻訳と音声翻訳の精度

 2019/7/16更新

 

 最近のAIと呼んでいるディープラーニングというアルゴリズムを使った手法により自動翻訳の精度が上がっている。しかし、自動翻訳についてはテキスト翻訳と音声翻訳に分けて考える必要があるように思う。

 

 ポケトーク等の音声翻訳が分野を限定すれば実用レベルに近い水準に近付いているように私は思っているが、一方でテキスト翻訳のレベルは実用にはまだほど遠いように思う。グーグル翻訳でもネーティブスピーカーレベルの語学力までは達していない人が時間を節約するために参考程度に使用できる水準にすぎないと思う。

 

 会話程度の音声翻訳なら比較的短いセンテンスを対象にすればいいので話者の音声に近いデータをデータベースから探せれば精度の高い翻訳結果が得られると推測できる。だから、できるだけ多くのデータをデータベースに蓄積することが翻訳精度の向上につながる。

 

「ディープラーニングではニューラルネットワークと呼ばれる人間の神経構造を模したアルゴリズムを発展させることで、特徴量を自動的に見つけ出せる」からデータの蓄積さえあれば、話者の音声に似た波形のデータをデータベースから取り出すのは技術的に容易になっている。

 

 しかも、音声翻訳の場合、通常、会話者同士が同じ環境にいるので前後の脈絡は共有されており、言葉以外の視覚情報等も使って言葉の意味を推測できる。

 

 一方、テキスト翻訳は音声翻訳より長いセンテンスを対象にしており、音声データのように特徴量を自動的に見つけ出すことは難しいように思う。

 

 音声翻訳は分野(例えばレストランでの注文等)を限定できればより精度が上がるだろう。しかし、テキスト翻訳については分野を絞るだけでは精度を上げることは難しいように思う。なぜなら、前後の文脈を無視して翻訳することができないからだ。テキストの場合、前後の文脈等の意味的な解析なしに精度の高い翻訳を実現することが可能だとは思えない。

 

 また、会話の場合のように音声以外の視覚情報等もなく、前後の脈絡等を機械に判断させるためには様々な情報がデータベースに蓄積されている必要がある。つまり、テキストの文字だけではなく、時代背景等の知識まで必要になる。同じ文字でも時代背景や状況に応じて言葉の意味は違ってくる。

 

 一方、現在の音声翻訳は前後の文脈を考慮しなくても(現在、使われている音声翻訳にどの程度の意味的な解析が行われているかは知らないが)話者の発声した音の波形に近いデータをデータベースから発見できればかなり精度の高い翻訳ができるのではないだろうか。

 

 そのことは翻訳機やスマホが極めて高い精度で音声認識をしていることからも想像できる。現実にスマホのマイクから拾った音声の認識率の高さには驚かされる。そして、データベースにその音声に対応する外国語の音声データが存在していれば翻訳はそれ程難しくないのではないだろうか。

 

 👉AIが声からウソを見抜く 劇的に進化する音声認識が変える世界~音声をそのまま認識して翻訳してくれるシステムは、音声認識と自動翻訳システムを組み合わせているという点で、音声インタフェースの一例と考えられる。

 

 逆説的に言えば、音声翻訳はテキスト翻訳に比べて意味的な解析に依存しなくてもある程度の精度の翻訳を実現できるので処理速度が速く、実用性の高い翻訳機を低コストで市場に提供できているのではないだろうか。

 

 👉 Google翻訳アプリの翻訳精度を翻訳機ポケトークと比較 - トライ翻訳機

 

 👉使ってみました!新型翻訳機「ポケトークW」を初代モデルと徹底比較

 

 👉ポケトークW購入レビュー。実際に使ってみて感じたメリットと気になる点 

 

 そう考えると意味的な解析が必要とされるテキスト翻訳の翻訳精度が急激に上がる可能性はとても低いのではないかと私は考えている。

 

 実際にこうした疑問を持った人たちがテキスト翻訳のレベルの検証をしている。その結果は予想通りと言えるものだ。

 

 👉ウェブページ機械翻訳の精度が低い問題:自動翻訳の方法を検証してみた結果 - 事実を整える

 

 👉テキスト自動翻訳・機械翻訳比較 (日本語・英語) | クラウドサービス徹底比較・徹底解説 (2019年版)

 

 👉「Google」VS「エキサイト」VS「アルコム」VS「weblio」本当に使える翻訳サービスはどれ?検証してみた

 

 👉ウィキペディアが機械翻訳に汚染されてめちゃくちゃだって~でも、実は本当に使えるのは英語版のWikipediaで、翻訳版の中には機械翻訳に汚染されてしまっている理解不能なWikipediaもあって、その言語の話者を困惑させているという事実はご存知でしょうか。…このContent Translation Tool、一見便利なようで、どうも危険をはらんでいるようです。というのも、ポルトガル語のモデレータが機械翻訳の出力が悪く「村のポンプ」が「爆弾を村に投下」になっていることに気づいて、それを報告しています。 “village pump” が “ bomba do Village ” に変換されたらしいのですが、Wikipediaの管理人の一人はこれを非常に懸念としており、機械翻訳を言語を解する人間と同一視してはならないと警鐘を鳴らしています。最近、機械翻訳の世界では「Human Parity」という言葉がよく聞かれるようになっています。これは人間と等価である、つまり人間なみに翻訳の質が高まっているというキーワードなのですが、実際には人間なみの質が得られているのはごく狭い制限された実験でのみの結果を元にしている場合が多く、多くの言語ではまだそこまでの境地には達していないのが実情なのです。…このような背景から、Wikipediaの小さな翻訳記事にはまだまだ間違いがたくさん含まれているようです。そしてその間違いに汚染されてしまったこの現状を修復するのは並々ならぬ努力が必要とのこと...。機械翻訳にはまだまだ開発の余地があるようです。

 

 Excelのヘルプの説明にも一部に機械翻訳が使われているが、日本語として、あるいは説明文として成立していないレベルのものを製品の説明文として提供していることに私は疑問を感じている。不完全な商品を売っても許されるというコンピューター業界の常識がベースにあるように思う。これは甘えであり、おごりだと思う。

   

 分からな点をヘルプしてくれるのが本当のヘルプではないだろうか。機械が勝手に翻訳しているから間違っているかもしれませんという商売が他の業界で成り立つだろうか。要は人手を掛けたくないから分からなかったら英語の解説を読んでくれというのは殿様商売そのものだと思う。 

 

 

Excelのヘルプの自動翻訳についてのエクスキューズ
Excelのヘルプの自動翻訳についてのエクスキューズ

 

 👉アカウント凍結、検索結果の偏向……。アルゴリズムに人生や思考が支配されることの危険性~そもそも特定のアルゴリズムには、その導入の理由がある。Twitterの場合は、人手で確認するコストを減らすためだ。Googleの場合は、広告の収益を最大化するためだ。これらは経済的な目的であって、正しさを求めているわけではない。

 

 英語ファーストについて私はムカついている。グローバル企業の市場独占が進むにつれて様々な分野の商品の多様性が失われつつあるように思う。彼らは進出した国の文化やニーズに合わせて商売をする努力を拒否して自分たちの製品が受け入れられない理由を何でもかんでも非関税障壁として政治を使って外圧をかけてくる。それがTPPであり、自由貿易協定だろう。

 

 すべての国が英語圏になれば、翻訳ビジネスは不要になる。当然、自動翻訳は無用の長物になり、生産性が上がるのではないだろうか。しかし、そうはならないからナチュラルスピーカー優位の市場が形成されつつあるのではないだろうか。

 

 日本での入札に英語が認められるならアメリカでの入札でも日本語での入札が認められるのが平等というものではないだろうか。ポチの国、日本。最近の本音主義者は、日本では狂犬だが、アメリカに対してはポチなのではないだろうか。こういうのを内弁慶というのではなかっただろうか。

 

 テキスト翻訳が実用レベルになる日は、私は遠いと思っている。それは現在、バカの一つ覚えのように何でもAIで世の中が変わるという風潮がいずれ冷めることを意味している。技術を過信してはいけないことを福島の原発事故が証明してくれている。結局、人知などというものはたかが知れており、人間が経験で知り得た知識や技術はほんの一部にすぎない。そういう謙虚な気持ちが大切だと思う。   おしまい

 

tagPlaceholderカテゴリ: 雑記
在りし日の愛犬
在りし日の愛犬

👆サイト内を検索できます!

👉「サイトマップ」を見る!

ドキュメント72時間がいい!
ドキュメント72時間がいい!
「六角精児の呑み鉄本線・日本旅」がいい!
「六角精児の呑み鉄本線・日本旅」がいい!
「深夜食堂」がいい!
「深夜食堂」がいい!
foobar2000備忘録
foobar2000備忘録
PC改造計画(1)
PC改造計画(1)
桐とExcel
桐とExcel
Spreadsheets2016
Spreadsheets2016
縮小都市とは
縮小都市とは
国と地方のタブー
国と地方のタブー
生産性が上がれば幸せになれるか
生産性が上がれば幸せになれるか
東急世田谷線
東急世田谷線
銀座のキューピッド
銀座のキューピッド
 ワンちゃんの動画
 ワンちゃんの動画
概要 | サイトマップ
少子高齢化対策の事例を訪ねて彷徨う旅人の独り言
ログアウト | 編集
  • TOPページ
    • 住みたい街
    • 何所へ行こうか
  • ブログ
    • 雑記(直近100件)
    • トピックス(直近100件)
  • プロフィール
  • 木になる芽
    • 木になる芽その1
    • 木になる芽その2
    • 木になる芽その3
    • 木になる芽その4
    • 木になる芽その5
    • 木になる芽その6
    • 木になる芽その7
    • 木になる芽その8
    • 木になる芽その9
    • 木になる芽その10
  • 街づくりあれこれ(新着)
    • 街これ(注目情報)
    • 街これ(人口問題)
      • 街これ(人口問題⑤)
      • 街これ(人口問題④)
      • 街これ(人口問題③)
      • 街これ(人口問題②)
      • 街これ(人口問題①)
    • 街これ(交通問題)
      • 街これ(交通問題⑤)
      • 街これ(交通問題④)
      • 街これ(交通問題③)
      • 街これ(交通問題②)
      • 街これ(交通問題①)
    • 街これ(活動)
      • 街これ(活動③)
      • 街これ(活動②)
      • 街これ(活動①)
    • 街これ(社会問題)
      • 街これ(社会問題④)
      • 街これ(社会問題③)
      • 街これ(社会問題②)
      • 街これ(社会問題①)
    • 街これ(暮らし)
      • 街これ(暮らし)①
    • 街づくりデータ
  • フォト
    • フォト2
  • こんな店
    • ウチコンその1
    • ウチコンその2
    • ウチコンその3
  • 迷ったら
    • 迷ったら2
  • 好きな街
    • 好きな街2
    • 好きな街3
    • 好きな街4
  • 街角の珍景
    • 珍景その5
  • 勘違い
    • 勘違いその4
    • 勘違いその5・6・7
    • 勘違いその8・9・10
  • 企業あれこれ(新着)
    • 企業あれこれ(生き残る)
    • 企業あれこれ(苦悩する)
  • 番外編~視点
    • 番外編~視点①
    • 番外編~視点②
    • 番外編2~日本の悪いところ
    • 番外編3~生き残るもの
    • 名言・語録
    • 世の中斜め読み
  • つぶやき(最新)
    • つぶやき(1~6)
    • つぶやき(7~10)
    • つぶやき(11~14)
    • つぶやき(15~18)
  • トップへ戻る