NDSS Symposium 2021 セッション紹介(2)

先日の記事に引き続き、NDSS Symposium 2021 で面白かったセッションを紹介します。

Zoom on the Keystrokes: Exploiting Video Calls for Keystroke Inference Attacks [1]Mohd Sabra (University of Texas at San Antonio), Anindya Maiti (University of Oklahoma), Murtuza Jadliwala (University of Texas at San Antonio), “Zoom on the Keystrokes: Exploiting Video Calls … Continue reading

この論文では、Zoom などのビデオ会議システムに映った映像を解析することで、画面に映っているユーザのキー入力を推測しようと試みています。「ん? そうは言っても、ビデオ会議の画面ってあまり手元の方は映ってないよね?」…と思ってしまうわけですが、著者たちはビデオ会議で映っている上半身の映像からタイピング内容を推測する手法を考案、検証しました。

画像を処理してキーストロークを取得する流れ

彼らの手法ではビデオ会議の画像のみを使用します。ビデオ会議に映っていることが多い上半身の映像を画像処理して肩と腕の線を抽出。その動きを解析して、キーをいつ押したのかおよび手先がどの方向に動いたかを、ちょっとした動きからもある程度の精度で検出することができたと報告しています。彼らはさらに、これらの情報から入力を推測するために、指の動きに関する情報を付加した専用の辞書を作成して実際のキー入力をどのくらい当てることができるか実験を実施しました。

腕の動き検出とキー入力を推測する仕組み。 画像出典: YouTube 講演動画 https://www.youtube.com/watch?v=UFOhM1E-UvQ

こうして辞書中からタイプされたと思われる文字列を推測して、実際にタイプされた文字列と比較します。その結果、Webcam の画質やライティング、キーボード操作方法[2]例えば、手があまり動かないタッチタイプよりも、両手が大きめに動く1本指タイプの方が動作の検知率は上がるようですなどでいい条件が揃った場合、辞書中から200件ほどに絞り込んだ候補内に正解が含まれている確率を80%ほどまで上げることができたそうです。ただし、辞書に含まれていない単語やパスワードなども対象にした、より実環境に近い使用条件では正解率がとても下がることもあわせて報告しています。実際の様々な条件比較に関しては、発表動画や論文を参照してください。

テキスト推測の正解率(一部)。 画像出典: YouTube 講演動画 https://www.youtube.com/watch?v=UFOhM1E-UvQ

この論文では、撮影状態が手の動きが判別できる程度に良好な動画であれば、辞書などにより必要な情報を補強することである程度の推測が可能なことを示しました。先行研究として挙げられていた「音声チャットでのキータイプ音から内容を推測する」手法と比べて推測精度を上げることができたため、ビデオ会議ではタイピング内容を盗まれる可能性があることに気をつけるべきである、しかし辞書に載っていない文章を推測するのは難しいと彼らは結論づけています。

カメラに映った上半身のみのごく僅かな動きからキータイプを推測しようというアイディアと、そこから実際にキーボード上での手の動きを抽出できたという手法がすごくて、とても面白い発表でした。実環境ではまだまだ難しいことが多いという結論にはなっていましたが、単語の列から文脈の情報を推測に付加したり、今回は使っていない音や入力のタイミングなど、別の外部情報をあわせることで精度をあげられる可能性もありそうです。一方で、実環境で多く使われるようになっている予測変換や、日本語では必須になる漢字変換のような、キー入力にワンクッション入るような入力メソッドを使っている場合にはさらに難しくなりそうだなどと想像しました。将来このような手法が進展して現実的な脅威となったら、ビデオ会議には VTuber のようにアバターを使って参加するのが常識だという時代がくるかもしれません。

意図せず出て/漏れている情報から何かを得ようという研究は、考え方や視点、使われる技術のどれをとっても面白いですね。

脚注

脚注
1 Mohd Sabra (University of Texas at San Antonio), Anindya Maiti (University of Oklahoma), Murtuza Jadliwala (University of Texas at San Antonio), “Zoom on the Keystrokes: Exploiting Video Calls for Keystroke Inference Attacks”, In Proceedings of the 28th ISOC Annual Network and Distributed Systems Symposium (NDSS), 2021.
2 例えば、手があまり動かないタッチタイプよりも、両手が大きめに動く1本指タイプの方が動作の検知率は上がるようです

シェアする