Deeplearning とか 人工知能とか

情報学を勉強してる人

Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation 翻訳

consecuttive 連続的な
interpolation 補間
coherent 互いに干渉し合う
spatially 空間的に
temporally 時間的に
variable-length 可変長の
multi-frame マルチフレーム
end-to-end 機械学習に置いて入力と出力のみを渡して学習を行うこと
occlusion reasoning オクルージョン推論  → オクルージョンとは?
bi-directional 双方向の、両方向の
optical flow 2つの画像間において各点がどう動いたのかを表現するものである。
U-Net Architecture 畳み込みニューラルネットワークにおける構造で、Uの字のようにネットワークの構造が表現される。
linearly combined 線形結合された
bound-aries 境界線の複数形
artifacts 成果物
refine 洗練する
soft visibility maps 造語
exclude 締め出す、遮断
occluded pixels
 
これから判明するであろう単語
ソフトビジビリティ
オクルーテッドピクセル
 
Abstract
与えられた2つのフレームを用いて時間的に、空間的に連続なコヒーレントビデオシークエンスを作成します。
多くの既存手法ではシングルフレーム補間に焦点を置いているのに対して、
私達は可変長のマルチフレーム補間の為にエンドツーエンドの畳み込みネットワークを用いています、
そのネットワークにはモーション補間とオクルージョン推論が組み込まれています。
私達はU-Netアーキテクチャを使い双方向のオプティカルフローを入力するところから実験を始めました。
そしてそれらのフローは各時間ステップで中間の双方向オプティカルフローを近似させるために線形結合されます。
けれども、それらの近似フローは局所的になめらかな場所でのみうまく働き、モーションの境界に成果物を生成します。
この欠点に対処するために、私達はもう一つのU-Netを近似フローとソフトビジビリティマップを予測するために利用し。
結果的には、2つの入力画像は曲げられ、線形的に溶け合い一つの中間フレームとなった。
フュージョン前にビジビリティマップをワープドイメージに適用することによって、
私達は補間された中間フレームへの、オクルーテッドピクセルによる影響を、成果物への影響を阻止するために阻止する。
私達のネットワークパラメータには時間依存のものが存在しないので、好きなだけ中間フレームを生成することが出来ます。
私達の学習には1132本の240fpsの動画を用いてフレームにして30万のフレームを使用しました。
いくつかのデータセットにおける我々の実験結果では異なる数の補間フレームを生成していて。
既存の手法よりも我々のアプローチの方が優れている事を証明しました。