第6章 音声認識エンジンを用いた情報保障の現状と課題
第二部
第6章 音声認識エンジンを用いた情報保障の現状と課題(*)
坂本徳仁(†)、櫻井悟史(‡)、鹿島萌子(§)
1.はじめに
手話通訳や手書き要約筆記(ノートテイク)、PC要約筆記は、聴覚障害者が音声情報を獲得する上で日常的に使用されている重要な手段である。しかし、これらの手段は、○1通訳者の養成にかかる時間や費用、○2通訳作業そのものにかかる人件費、○3通訳者の依頼と派遣にかかる手間暇、といった側面があるため、お手軽・簡単な手段とは言い難く、より気楽に音声情報を獲得できる手段が求められている。そのような中で、近年、音声情報を認識して文字に自動変換するソフト(以下、「音声認識」)を用いた情報保障の仕組みが大学の講義や企業内での会議といった場において試験的に導入されている(1)。本研究は、これまでに行なわれてきた音声認識による字幕化の枠組みについて概要を説明した上で、筆者らが実施した音声認識エンジンAmiVoiceによる情報保障システムの試用運転の結果を報告するものである。
2.音声認識を用いた情報保障方式の分類
本節では、音声認識を用いた情報保障システムを定義・類型化し、その各々について概説する。用語の混乱を避けるために、本稿では「音声認識を用いた情報保障システム」を「話者の音声を音声認識ソフトによって認識・文字化し、誤字・脱字の校正を経た上で、PC画面やスクリーンなどに表示する情報保障システム」として定義する。この比較的緩やかな定義からも分かるように、音声認識を用いた情報保障システムには、○1話者の音声を認識する方法や、○2認識・文字化された文章の誤字・脱字の校正方法、○3字幕の提示方法などについて複数の方式がありうる。以下では、○1音声認識の方法と○2誤字・脱字の校正方法の二点について現在までに試されてきた方法を概観し、その上で「音声認識を用いた情報保障システム」を分類することにしよう。
さて、話者の声を認識する方式は大雑把にいえば、○1他者を介さず、話者の声を直接認識させる方法(話者入力方式)と、○2話者の声を他者が復唱して音声認識させる方法(復唱入力方式)の二通りに分けることができる。
前者の「話者入力方式」は、復唱者を介さないということで、その分の人件費が安くなるというメリットがあるが、訓練されていない普通の話し方では音声認識の精度が低く、話した言葉の5〜7割程度しか認識されないというデメリットがある(2)。
後者の「復唱入力方式」は、復唱者が意識した話し方で音声をマイクに吹き込むことで、認識精度が8割台になるというメリットがあるが(3)、○1復唱者の人件費がかかること、○2復唱作業の技術的難しさ、といった二つの問題がある。一般に、復唱作業には向き不向きがあり、最初からある程度こなせる人もいれば、訓練してもほとんど上達しない人もいる(4)。したがって、どんな人に対してでも気軽に復唱作業を依頼できるということはなく、大学などで安定的に復唱者を派遣したい場合には、その調達に相当程度の困難があることを認識しなければならない。
さて、前述の復唱入力方式は、○1復唱作業の様式、○2復唱者と話者の位置関係の基準によって更に区分することが可能である。
復唱作業の様式による区分としては、○1話者の声をそのまま復唱するだけの方式(原文復唱方式)、○2話者の話した内容を適宜要約して復唱する方式(要約復唱方式)の二種類がある。原文復唱方式は発言者の言葉を単純に復唱するだけであるので、特別な技術は復唱以外に必要なく、認識精度も高い傾向にある。しかし、話し言葉そのものが字幕で表示されるため、中野他(2006; 2007)が指摘するように、字幕の内容を理解にしくいという問題が生じてしまう(5)。これに対して、要約復唱方式は復唱の技術に加えて発言を要約する技術も必要とされ、認識精度が低くなるという傾向がある(坂本 2009)。しかし、文法的には正しい文章が字幕で表示されるため、字幕の内容を理解しやすいというメリットがある。
続いて、復唱者と話者の位置関係による区分を導入しよう(三好他 2007)。復唱者が話者と同じ部屋で復唱作業を行なう方法を近接方式と呼び、話者と異なる部屋で復唱作業を行なう方法を遠隔方式と呼ぶことにする。近接方式では、復唱作業の声が話者の妨げにならないようにマスク型マイクロホンを用いるなどの工夫が求められる。ただし、マスク型マイクロホンは人によって相性があり、良い人でも認識率8割、悪い人では認識率0割にまで落ち込むといった問題がある(三好他 2007)。遠隔方式は、話者の音声を無線LANなどを経由して別室に伝える必要があり、そのための各種機材が必要となる。また、復唱作業用の部屋を余分に用意しなければならないという意味で、近接方式の方が遠隔方式に比べて機材面での優位性をもっている。しかしながら、遠隔方式の機材準備のデメリットは発言の妨げにならないというメリットに比べれば小さなものであるため、一般的には遠隔方式の方が好まれている(「音声認識によるリアルタイム字幕作成システム構築マニュアル」編集グループ 2009)。
以上が、音声入力方式についての分類である。続いて、誤字・脱字の校正方法についての分類を紹介しよう。
音声遅延方式は、話者ないし復唱者の音声が校正用のPCに字幕表示されるまでの時間差を埋めるために、校正者の聞く音声をあえて遅延再生させる方式のことである。これには、音声遅延再生用ソフトウェア「SR-DELAY」やVideoBOXと呼ばれる機械が用いられる。この方式のもとでは、校正者が遅延再生された音声を記憶して校正することになるので、誤字修正の精度はやや低くなる。しかし、校正された文章が字幕化されるまでのタイムラグは10秒程度とそれほど大きくはない。
これに対して、録音方式は発言者ないし復唱者の音声を録音して校正する方式である。この方式のもとでは、万が一聞き逃したとしても、もう一度聞きなおして校正することが可能になるため、誤字修正の精度を高めることができる。しかし、聞き直して校正を行なえば、その分だけタイムラグは大きくなる。
以上をまとめると、音声認識を用いた情報保障の方式は、(1)音声入力方式による分類(○1話者入力方式、○2復唱入力方式)、(2)復唱入力方式の分類(○1原文復唱方式、要約復唱方式)、(3)復唱者・話者の位置関係による分類(○1近接方式、○2遠隔方式)、(4)誤字・脱字の校正方法による分類(○1音声遅延方式、○2録音方式)の4つの基準による分類が可能であり、この分類法の下では各々の組み合わせによって全部で10種類の方式が存在することになる(図1を参照)。
図1 音声認識を用いた情報保障の類型化[省略]
3.障害学会における音声認識を用いた情報保障の試験的運用
本節では、2009年9月26-27日に立命館大学朱雀キャンパスで開催された第6回障害学会大会にて音声認識を用いた情報保障システムを試験的に運用した結果を報告する。筆者たちは2009年9月26日の第6回障害学会大会シンポジウム「障害学生支援を語る」で話者入力方式による字幕化を、翌27日の同大会におけるシンポジウム「障害と貧困――ジェンダーの視点からみえてくるもの」において、要約復唱方式と原文復唱方式の二通りの入力方式による字幕化を試験的に行なった。以下では、その詳細を説明しよう。
3.1 実験機材
本実験の音声認識エンジンには、株式会社アドバンスト・メディア社が開発したAmiVoiceを採用している。AmiVoiceは先行研究においても使用されている一般的なソフトウェアで、本実験ではその応用例の一つである「議事録作成支援システム」を使用している(6)。
議事録作成支援システムは以下のようなソフトから成り立っている。第一に、音声を録音・認識し、それを文字化する「AmiVoice Recorder」(150万円/1ライセンス。以下、レコーダー)。第二に、音声認識結果を編集するための「AmiVoice Rewriter」(50万円/1ライセンス。以下、リライター)。第三に、認識結果を向上させるための「言語モデルカスタマイズ(7)」(300万円)。この他、複数台のリライターを用いて、リアルタイムで議事録を作成するための「Control Server」(50万円/1ライセンス。以下、コントロール・サーバー)と、認識結果をリアルタイムで表示するための「Control Server Viewer」(今後発売予定のために価格は未定。以下、ビューアー(8))も使用した(9)。以上のソフトに加えて、音声を吹き込むためのタイピンマイクセット二つ(UT16A+MR-SU3、UHFワイヤレス・レシーバーATW-R103/P)、ノイズを除去するための装置としてオーディオ・インターフェイス「EDIROL 24bit96kHz USB Audio Capture UA-25EX」を使用している。
さて、前述の機材の他に、本実験ではルーターを介して無線LANでつながれた3台のパソコンを使用した。以下、図2を参照しながら、本実験の情報保障システムの全体像を解説しよう。
パソコン1ではレコーダーとリライターの両方を使用する。レコーダーで音声を録音するため、パソコン1にオーディオ・インターフェイスをつなぎ、それをワイヤレス・レシーバーにつなぐ。ワイヤレス・レシーバーは無線マイクから送られてくる電波を受信し、オーディオ・インターフェイスでノイズが除去される。その音声をレコーダーで録音し、コントロール・サーバーで認識することで、音声をテキスト化することが可能になる。テキスト化された文章をリライターで編集し、誤認識を校正する。校正者はレコーダーで録音した音声を聞きながら誤字・脱字の修正作業を行なうので、本実験では校正方法について録音方式を採用していることになる。
次に、パソコン2ではリライターのみを使用する。1台だけで字幕の誤認識を校正することは、校正者にかかる負担および字幕提示までのタイムラグの双方の観点から好ましくないため、本実験では2台のパソコンを用いて誤認識の校正を行なうこととした。
最後に、パソコン3はコントロール・サーバーとビューアーを使用するためのパソコンである。パソコン3をプロジェクタにつなぎ、校正後の音声認識結果をスクリーンに表示させる。3台のパソコンの中ではパソコン3に最も負荷がかかることから、一番スペックの高いパソコンを使用している。
図2 情報保障システムの概要[省略]
3.2 実験結果
実験は、○1認識率、○2字幕提示までのタイムラグ、○3誤字修正におけるミス、の三点に注目して行なっている。復唱作業にはベテランの手書き要約筆記者2名を15〜20分間隔交代で配置した。復唱者2名は事前にリハーサルを行なったとはいえ、復唱作業のベテランではないということに留意されたい。また、誤字・脱字の校正作業は同時に2名に当たらせ、数十分ごとに交代することとした。本実験の校正者の大半はパソコン要約筆記などについての知識・経験がなく、音声認識を用いた情報保障システムに参加すること自体が初めてであった。
認識率については先行研究と同じく「(話者の発言文字数-音声認識における誤字・脱字・誤変換数)/話者の発言文字数」として定義し、○1話者入力方式、○2要約復唱方式、○3原文復唱方式の各々について計算した。本調査では、各方式について無作為に1分間の文章を抽出し、その認識率を10回計算している。表1はその結果をまとめたものである。
表1から認識率がもっともよかったのは、原文復唱方式であることがわかる。その標準偏差からも要約復唱方式と話者入力方式に比べて、原文復唱方式は散らばりにおいても精度が高いことがわかる。
続いて、発言が始まってから最初の60分間の音声情報が字幕提示されるまでのタイムラグを計った結果について検討しよう。シンポジウム開始直後には10秒程度のタイムラグであったが、15分後には3分強、30分後には9分強、45分後には15分半、60分後には24分半強と、時間の経過とともにタイムラグが大きくなっていった。黒木他(2003; 2006)による研究では、復唱者2名、校正者4名の体制(遠隔方式、原文復唱方式、音声遅延方式を採用)のもとでの音声認識率は90%、誤字や脱字を校正した後の字幕の認識率は97.2%、話者の発言から字幕化までのタイムラグは11秒程度と報告されている。それに比べて、24分半強のタイムラグは実用に耐えうるものではなく、校正者2名体制のもとで録音方式の校正作業を行なうことには大きな問題があると言えるだろう。
最後に、表2はシンポジウム開始15分間と終了前15分間の誤字、脱字、同一句・文の反復、句読点ミスの数を数えたものである。句読点のミスを除けば、開始直後の15分間に比べて終了前15分間の方が誤字・脱字などの数は減少している。このことから校正者の慣れによって誤字・脱字のミスは減らすことが可能であるように思われる(10)。
表1 各方式の認識率、標準偏差、レンジ
/話者入力方式/要約文復唱方式/原文復唱方式
認識率の平均/38.9/41.2/58.4
認識率の標準偏差/20.7/14.5/8.2
認識率のレンジ/16.4-75.0/24.3-68.5/46.2-70.7
表2 シンポジウム開始直後と終了前の誤字・脱字等の数の比較
/シンポ開始直後15分間/シンポ終了前15分間
誤字/33/25
脱字/20/10
同一句・文の反復/17/2
句読点ミス/10/13
3.3 考察
実験結果から明らかになったことを解説しよう。
第一に、話者入力方式、要約復唱方式、原文復唱方式いずれの方式においても、本実験の結果は先行研究の結果よりも悪いものとなった。理由としては、この実験が音声認識の研究に携わってきた専門家の手によるものではないということが挙げられる。さらに、立命館大学の講義(11)において試用していたとはいえ、「音声認識を用いた情報保障システム」を学会で運用することは初めてのことであり、事前のリハーサルでは起こらなかった不測の事態が生じたことも認識率を下げたものと思われる。具体的には、復唱者は別室で復唱作業を行なうことになっていたのだが、ヘッドホンの不調で報告者の音声が入らなかったため、急遽舞台袖で復唱作業を行なうことになってしまった。そのため、音声認識に必要なだけの十分な声量で復唱作業を行なうことができなかった。また、500人規模のホールでのシンポジウムであったために、話者はマイクを持って話していた。このマイクの音声が舞台袖の復唱者のマイクに入り、音声認識が乱れる原因となった可能性もある。以上のような理由から、認識率が先行研究よりも大幅に低下したものと考えられる。
第二に、そのような悪条件のもとであっても、要約復唱方式と原文復唱方式には明らかな違いが見られた。これは前者が復唱技術と要約技術の両方を求められるのに対して、後者は復唱技術だけでよいことから生じたものと思われる。すなわち、復唱者が話者の発言内容を咀嚼して文法的に整った要約文を吹き込み、かつ吹き込む際には流暢で発音の綺麗な音声を保たなければならないということは至難の業である。復唱者が要約文を吹き込む際には、一定のリズムを保てず発音も不明瞭になりやすい可能性があり、そのことが認識精度の違いをもたらしているのかもしれない。この点については厳密な実験を行なって検証する必要があろう。
第三に、録音方式による校正は音声遅延方式による校正よりもタイムラグが大きくなる傾向があるかもしれない。録音方式のもとで、何度も聞き直して誤字脱字のチェックを入念に行なえば、当然のこととしてタイムラグは大きくなる。今回の実験では、校正者がリアルタイム編集を初めて経験する者ばかりで、かつ専門単語の辞書登録もしていない状態であったことから、タイムラグが過剰に出てしまった可能性がある。今後、入念な準備を行なった上で、先行研究と同じ校正者4名体制のもとでは、録音方式のタイムラグがどの程度の水準になるのか確認する必要があるだろう。
最後に、十分に訓練されていない復唱者と校正者のもとで、音声認識を用いた情報保障システムを運用することは不可能に近いということである。現在の技術水準のもとでは、音声認識による字幕化はソフトさえあれば誰もがお気軽かつ容易にできるというものではない。さらに、現状で最も効果を上げている研究でさえ、復唱者2名、校正者4名の体制のもとで運用しており、日常的に情報保障の手段として使われるPC要約筆記2名体制の3倍もの人数が必要となっている。その意味において、音声認識を用いた情報保障システムは技術面だけではなく人件費の面でも大きな課題を抱えていると言えよう。
4.おわりに
以上の議論から、本研究には少なくとも6つの研究上の課題がある。具体的には、○1要約復唱方式と原文復唱方式の比較作業の精緻化、○2校正作業における録音・音声遅延方式の比較作業の精緻化、○3校正者の陥りやすい間違いの分析、○4復唱者・校正者育成プログラムの開発、○5復唱者・校正者の「真の情報保障体制」確立までにかかる時間と費用の推計、○6安価な音声認識エンジンによる字幕化システムの分析、の6点である。
これらの研究課題のうち、いくつかの点については○1要約復唱方式と原文復唱方式の比較実験の実施、○2筑波技術大学の音声認識を用いた情報保障システムの追試、○3群馬大学教育学部における同システムの視察などといった形で、すでに取り組みを始めている状況にある。しかしながら、音声認識を用いた情報保障システムについて当事者との緊密な連携がとれていないことが方法論上の課題として存在し、その点については今後改善していきたい。
[謝辞]
本研究を遂行するに当たってご協力いただいた全日本難聴者・中途失聴者団体連合会の高岡正氏、京都府難聴者協会、障害者欠格条項をなくす会の臼井久実子氏、障害学会、群馬大学の金澤貴之氏および金澤研究室に在籍する学生の方々、群馬大学障害学生支援室、生存学研究センターの皆様に深く感謝したい。最後に、坂本は日本学術振興会科学研究費補助金「ろう教育の有効性:聴覚障害者の基礎学力向上と真の社会参加を目指して」(研究代表者:坂本徳仁、課題番号:20830119)から、櫻井・鹿島の両名は立命館大学グローバルCOEプログラム「生存学」創成拠点および文部科学省科学研究費補助金「異なる身体のもとでの交信――本当の実用のための仕組みと思想」(研究代表者:立岩真也、課題番号:20200022)から各々研究費の助成を受けている。記して謝意を表したい。
[注]
(*)本稿は2010年3月22日に行なわれた公開シンポジウム「聴覚障害者の情報保障を考える」の報告原稿「音声認識エンジンを用いた字幕化支援の現状と課題」を大幅に加筆・修正したものであり、坂本(2009)および櫻井・鹿島・池田(2009)の研究成果をまとめたものである。
(†)一橋大学大学院経済学研究科特任講師、立命館大学衣笠総合研究機構客員研究員。
(‡)日本学術振興会特別研究員、立命館大学大学院先端総合学術研究科博士課程在籍。
(§)立命館大学大学院先端総合学術研究科博士課程在籍。
(1)大学では筑波技術大学、群馬大学、宮城教育大学が、企業ではマツダが各々音声認識による情報保障システムを導入している。
(2)水島(2006)は普通の話し方の認識率が5〜7割、三好(2008)は普通の話し方の認識率が6〜7割になるものと報告している。
(3)水島(2006)、三好(2008)ともに意識した話し方の認識率は8割台になるものと報告している。さらに、三好(2008)は訓練された話し方であれば95%前後の認識率になると報告している。
(4)一般的には手話通訳者や要約筆記者が復唱作業に向いていると言われている。また、筆者らが群馬大学の音声認識を用いた情報保障システムを見学しに行った際には、復唱作業に慣れた学生といえども、話者の話すスピードが速かったり、事前に打ち合わせのない専門分野の話があることで、復唱作業に支障をきたすということが確認された。
(5)中野他(2008)によれば、原文よりも要約の方が常に理解しやすい・望ましいということはなく、聴覚障害者によってニーズが分かれるものと指摘されている。
(6)本実験で使用した「議事録作成支援システム」は会議などの議事録や抄録を作成するために開発されたシステムであり、もともと聴覚障害者の情報保障のために開発されたものではない。したがって、本実験の結果が芳しくないものであっても、それは「議事録作成支援システム」の使用価値を下げるものではないことに留意されたい。実際、テープ起こし作業や議事録作成におけるAmiVoiceの使用効果は目覚ましいものがある。
(7)本実験のために、以下のデータを用いて言語モデルのカスタマイズを行なった。
[音声データ+テキストデータ=vtext]
・立命館大学大学院先端総合学術研究科「公共論史(担当講師:立岩真也)」の講義18時間分の音声データ.
[テキストデータ]
・安積純子, 尾中文哉, 岡原正幸, 立岩真也(1995)『生の技法―─家と施設を出て暮らす障害者の社会学(増補改訂版)』, 藤原書店, 第2, 6, 7, 8, 9章, pp.57-74, 147-321.
・立岩真也(2000)『弱くある自由へ――自己決定・介護・生死の技術』, 青土社.
・立岩真也(2004)『ALS――不動の身体と息する機械』, 医学書院.
・立岩真也(2008)「異なる身体のもとでの交信――本当の実用のための仕組と思想」, 文部科学省科学研究補助金・新学術領域研究(研究課題提案型)提出書類(一部略).
・2009年度第6回障害学会大会報告要旨集.
(8)ビューアーは試作品であったために、どのように字幕を提示するか開発者であるアドバンスト・メディア社と協議を行なった。その結果、本実験では、○1誤字修正が終わったテキストから順次表示していく方式と、○2認識結果全体が薄い灰色の文字で表示され、確定した部分が黒字に変わるという方式の二つのものを採用した。
(9)これらのソフトの使用方法については櫻井他(2009)を見よ。
(10)同一句・文の反復は、リライターの設定である程度解消可能であることが、実験後に明らかとなった。
(11)立命館大学大学院先端総合学術研究科「公共論史(担当:立岩真也)」の講義において試用していた。
[参考文献]
「音声認識によるリアルタイム字幕作成システム構築マニュアル」編集グループ[編](2009)『音声認識によるリアルタイム字幕作成システム構築マニュアル』, 筑波技術大学.
黒木速人他(2003)「聴覚障害者の国際会議参加支援のための遠隔型音声字幕化システム:札幌-横浜間におけるシステム運用とその評価」, 『ヒューマンインタフェース・シンポジウム2003論文集』, pp.729-732.
黒木速人他(2006)「聴覚障害者のための音声同時字幕システムの遠隔地運用の結果とその評価」, 『ヒューマンインタフェース学会論文誌』, 8(2), pp.255-262.
坂本徳仁(2009)「音声認識エンジンを用いた聴覚障害者支援の実現可能性について」, 第6回障害者の生活・教育支援研究会報告資料,立命館大学.
櫻井悟史他(2009)「音声認識ソフトを用いた学習権保障のための仕組み」,障害学会第6回大会ポスター報告
(http://www.arsvi.com/2000/0909ss2.htm).
中野聡子他(2006)「音声認識技術を利用した字幕呈示システムの現状と課題:音声言語と文字言語の性質の違いに焦点をあてて」,『群馬大学教育実践研究』, 23, pp.251-259.
中野聡子他(2007)「音声認識技術を用いた聴覚障害者向け字幕呈示システムの課題:話し言葉の性質が字幕の読みに与える影響」, 『電子情報通信学会論文誌D』, J90-D(3), pp.808-814.
水島昌英他(2006)「音声認識を用いた会議支援情報保障システムに対する話者の発話行動の分析」, 『信学技報』, WIT2006-108, 21-26.
三好茂樹他(2007)「音声認識技術を利用した字幕作成担当者のための支援技術とそのシステム開発」, 『筑波技術大学テクノレポート』, 14, pp.145-152.
三好茂樹(2008)「音声認識技術を用いた情報保障(20)」, PEPNet-Japan Tip Sheet.