この文は Mix Space によって xLog に同期更新されています
最適なブラウジング体験を得るために、元のリンクを訪れることをお勧めします
https://www.do1e.cn/posts/codec/AICodecIntro
デジタル画像処理#
電子版リンク:デジタル画像処理(中)第三版 (1).pdf
第1、2、4、6.1-6.2、8章を学習し、第八章はJPEG エンコーディングの詳細紹介 - CSDN ブログと併せて見ることで、エンコーディングの大まかな流れを把握します
深層学習#
まず、Python について十分な理解が必要です。選択可能な電子書籍:Python プログラミング:入門から実践まで.pdf
Pytorch を学び、Bilibili の関連コース:李沐から AI を学ぶ個人スペース - 李沐から AI を学ぶ個人ホームページ - 哔哩哔哩動画 (bilibili.com)を重点的に見て00~29.2、31、33-37、47、47.2
入門基礎論文#
論文とコード(CompressAI)を組み合わせて、自分でモデルを訓練し、RD 曲線を描いてみます
一般的に使用される訓練・検証セット:ImageNet/COCO
一般的に使用されるテストセット:24 枚の Kodak 画像、元の画像の端が異常なため、時々正方形にトリミングされた画像を使用します
-
Ballé, J., et al. (2015). "画像の密度モデリングに関する一般化正規化変換." arXiv プレプリント arXiv:1511.06281.
AI Codec で一般的に使用される活性化層 GDN、関連コード:CompressAI/compressai/layers/gdn.py at master · InterDigitalInc/CompressAI (github.com)
-
Ballé, J., et al. (2016). "エンドツーエンドで最適化された画像圧縮." arXiv プレプリント arXiv:1611.01704.
AI Codec の基本構造を紹介し、JPEG エンコーディングと組み合わせて、変換、量子化、エントロピーエンコーディングがそれぞれのプロセスに共通していることを比較し、RD 損失関数を理解します。関連コード:CompressAI/compressai/models/google.py at a4ae2eeef7bdb1b84ba076ac0d650b523f3fa882 · InterDigitalInc/CompressAI · GitHub
-
Ballé, J., et al. (2018). "スケールハイパープライヤーを用いた変分画像圧縮." arXiv プレプリント arXiv:1802.01436.
基本構造にハイパープライヤーを追加します、関連コード:CompressAI/compressai/models/google.py at a4ae2eeef7bdb1b84ba076ac0d650b523f3fa882 · InterDigitalInc/CompressAI · GitHub
-
Minnen, D., et al. (2018). "学習された画像圧縮のための共同自己回帰および階層的事前分布。" 神経情報処理システムの進歩。
自己回帰(autoregressive)とハイパープライヤー、関連コード:CompressAI/compressai/models/google.py at a4ae2eeef7bdb1b84ba076ac0d650b523f3fa882 · InterDigitalInc/CompressAI · GitHub
注:CompressAI は Linux で直接 pip インストールできますが、Windows 用のインストーラは提供されていません。以下の手順に従ってインストールしてください:
- Visual Studio の C++ 関連パッケージをインストールし、再起動します
- conda で新しい python 環境を作成し、pytorch、scipy、matplotlib、pytorch-msssim をインストールします
- 上記の環境をアクティブにし、CompressAI をローカルにクローンし、ターミナルでディレクトリに入って、
pip install .