AI Codec 入門

この文は Mix Space によって xLog に同期更新されています
最適なブラウジング体験を得るために、元のリンクを訪れることをお勧めします
https://www.do1e.cn/posts/codec/AICodecIntro

デジタル画像処理#

電子版リンク：デジタル画像処理（中）第三版 (1).pdf
第1、2、4、6.1-6.2、8章を学習し、第八章はJPEG エンコーディングの詳細紹介 - CSDN ブログと併せて見ることで、エンコーディングの大まかな流れを把握します

深層学習#

まず、Python について十分な理解が必要です。選択可能な電子書籍：Python プログラミング：入門から実践まで.pdf
Pytorch を学び、Bilibili の関連コース：李沐から AI を学ぶ個人スペース - 李沐から AI を学ぶ個人ホームページ - 哔哩哔哩動画 (bilibili.com)を重点的に見て00~29.2、31、33-37、47、47.2

入門基礎論文#

論文とコード（CompressAI）を組み合わせて、自分でモデルを訓練し、RD 曲線を描いてみます

一般的に使用される訓練・検証セット：ImageNet/COCO
一般的に使用されるテストセット：24 枚の Kodak 画像、元の画像の端が異常なため、時々正方形にトリミングされた画像を使用します

Ballé, J., et al. (2015). "画像の密度モデリングに関する一般化正規化変換." arXiv プレプリント arXiv:1511.06281.

AI Codec で一般的に使用される活性化層 GDN、関連コード：CompressAI/compressai/layers/gdn.py at master · InterDigitalInc/CompressAI (github.com)
Ballé, J., et al. (2016). "エンドツーエンドで最適化された画像圧縮." arXiv プレプリント arXiv:1611.01704.

AI Codec の基本構造を紹介し、JPEG エンコーディングと組み合わせて、変換、量子化、エントロピーエンコーディングがそれぞれのプロセスに共通していることを比較し、RD 損失関数を理解します。関連コード：CompressAI/compressai/models/google.py at a4ae2eeef7bdb1b84ba076ac0d650b523f3fa882 · InterDigitalInc/CompressAI · GitHub
Ballé, J., et al. (2018). "スケールハイパープライヤーを用いた変分画像圧縮." arXiv プレプリント arXiv:1802.01436.

基本構造にハイパープライヤーを追加します、関連コード：CompressAI/compressai/models/google.py at a4ae2eeef7bdb1b84ba076ac0d650b523f3fa882 · InterDigitalInc/CompressAI · GitHub
Minnen, D., et al. (2018). "学習された画像圧縮のための共同自己回帰および階層的事前分布。" 神経情報処理システムの進歩。

自己回帰（autoregressive）とハイパープライヤー、関連コード：CompressAI/compressai/models/google.py at a4ae2eeef7bdb1b84ba076ac0d650b523f3fa882 · InterDigitalInc/CompressAI · GitHub

注：CompressAI は Linux で直接 pip インストールできますが、Windows 用のインストーラは提供されていません。以下の手順に従ってインストールしてください：

Visual Studio の C++ 関連パッケージをインストールし、再起動します
conda で新しい python 環境を作成し、pytorch、scipy、matplotlib、pytorch-msssim をインストールします
上記の環境をアクティブにし、CompressAI をローカルにクローンし、ターミナルでディレクトリに入って、pip install .