リップシンクとは

「リップシンク(Lip Sync、Lip Synchronization)」とは、映像作品、アニメーション作品に登場する人物の口の動きとセリフを合わせることを指します。リップシンクは画面に映った登場人物をリアルに感じることができるかどうかに大きく影響を及ぼします。また、映像作品やアニメーション作品だけではなく、舞台演出や歌番組などの生放送の際に、事前に収録しておいた楽曲に合わせて実際に歌っているかのように見せる時にも使われます。ほかにもビデオ会議などで映像信号と音声信号のズレによる声と口の動きが一致しない現象を補正するときにも使われ、リップシンク機能とも呼ばれています。

日本のアニメにおけるリップシンク

日本では口パク(クチパク)という言葉で広く知られているリップシンクですが、日本のTVアニメの多くは3種類の口の形で構成されており、「とじ口」「あき口」「少し開いた中あき口」でできています。たったこれだけですが、不思議とセリフにあっているように見えます。このように標準的なリミテッドアニメーションなどでは3種類ですが、映画やキャラクターのアップシーンでは母音(a,i,u,e,o)の5種類の口の形をセリフに合わせる方法がとられることもあります。しかし、破裂音、摩擦音、鼻音、弾音、接頭音などの表現ではこれら5種類ではうまくいかないことがあります。また、英語の発音をさせる場合は日本語とは異なる口の形になるので注意が必要です。

フェイシャルキャプチャ

CGの映像制作やアニメーション制作においては、フェイシャルキャプチャという技術もあり、2016年公開の映画「デスノート Light up the NEW world」では死神のリュークに使われています。
フェイシャルキャプチャは、光学式のモーションキャプチャの技術を使い、役者の顔に多数のマーカーを取り付けて複数のカメラで動きと表情をデータとして記録し、そのデータをもとに口の動きを含む表情の動きを生成していくという方法がありますが、多くの機材や広いスタジオを必要とします。
それに対し、近年ではビデオベースのフェイシャルキャプチャが登場し、多く活用されています。ビデオベースのフェイシャルキャプチャでは、役者が顔の正面に小型カメラの装着されたヘルメットをかぶり、正面から表情をビデオ撮影します。そのビデオデータをアナライズ(動画解析)し、リターゲティングしていくという手順で行われます。

リアルタイムリップシンク

ゲームエンジンの「Unity(ユニティ)」向けに『Oculus社』がリップシンクライブラリの「Oculus Lipsync Unity(OVRLipSync)」を提供しており、現在は「Unreal Engine 4(アンリアルエンジン)」にも対応しています。マイクから拾った音声を認識してモデルに適用して動かします。
また近年VTuberが人気ですが、リアルタイムで手軽にリップシンクができるソフトウェアやツールが豊富に出ており、特別な専門知識がなくてもバーチャルキャラクターを動かすことができるようになってきました。

関連ワード