お知らせ

2024.03.28 ITニュース 人工知能とコンピュータビジョン

 

                                                                                                                                                                                                                                                              帝京大学理工学部 荒井正之  

  帝京大学理工学部情報電子工学科荒井研究室は、主にパターン認識やコンピュータビジョンの研究を進めてきました。具体的には、手書き漢字の認識、筆者認識、雲の流れの認識、小さな物体の認識、一部が隠れている物体の認識、なりすましの認識、画像のノイズ除去、マスク顔の表情認識などの研究です。これらの研究の多くは、人口知能(Artificial Intelligence, AI)の技術を用いています。本稿では、荒井研究室のパターン認識やコンピュータビジョンに関する研究と、それらの研究に用いたAIの技術について説明いたします。

  図1にAIの技術を示します。現在のAIは主に機械学習(Machine Learning, ML)の技術に支えられており、機械学習の一部にニューラルネットワーク(Neural Network, NN)があります。さらにNNにはディープニューラルネットワーク(Deep Neural Network, DNN)が含まれ、現在のAIブームは、このDNNがけん引しています。

 AIは一般的には「人が実現するさまざまな知覚や知性を人工的に再現するもの」と定義されます。しかしながら、現在のAIは、たとえば将棋など特定領域では人間を凌駕する能力を発揮しますが、複数領域にまたがるような分野の場合、人間を超えるものは未だに存在しません。人が実現する知覚や知性を複数領域分野で再現するAI、すなわち汎用的人工知能(Artificial General Intelligence, AGI)が実現できて初めてAIと呼ぶことができるのではと私は考えています。

                            図1  AI、ML、NN、DNNの関係

 NNには、表1に示すように3つのブームがありました。第一次ブームは人間の視覚や脳の機能を模したパーセプトロンが提案された時期です。しかし、線形分離が不可能な問題に適用ができないなどの欠点によりブームは収束に向かいます。第二次ブームは、図2に示す誤差逆伝搬法と呼ばれる機械学習法をマルチレイヤーパーセプトロンに適用すると線形分離可能な問題が解けることがわかりブームを引き起こしました。しかし、大規模問題に適用が難しい、学習精度の向上が難しい等の問題があり収束に向かいます。オートエンコーダという技術を用いた多層NNが提案されてから第三次ブームとなり、現在に至っています。この多層NNがDNNと呼ばれています。図3にDNNの一例を示します。

 

                           表1  NN の3つのブームの年代と主要な技術

                     図2  誤差逆伝搬法を用いたマルチレイヤーパーセプトロン[1]

 

                          図3  DNNの一例 AlexNet[2]

 荒井研究室のパターン認識やコンピュータビジョンの研究の中から特にNNやDNNを用いた研究を紹介します。1990年代には、数千字種の手書き漢字を認識するために、図4に示すNNを提案しました。我々は、このNNをHoneycombネット[3]と名づけました。このネットワークは、NNの第二次ブームを引き起こした誤差逆伝搬法によるマルチレイヤーパーセプトロンを用いています。しかし、当時はコンピュータパワーが不足しており、多くの文字種を一度に学習することが困難でした。そのため前段(図4上段)に手書き漢字を大分類するために、Kohonenが提案した自己組織化ネットワーク[4]を配置しました。入力された手書き漢字は、このネットワークで大分類され、その後、後段(図4下段)のマルチレイヤーパーセプトロンに入力されて文字種の同定を行います。

                       図4  Honeycombネットの構成[3]

 2010年代以降の研究の多くは、DNNを使用しています。第二世代のNNでは、NNの入力データとなる特徴を抽出しなければなりませんでした。たとえば、前述のHoneycombネットでは、手書き漢字を縦横斜め±45度の4方向から走査して、文字線の数を特徴とする線密度特徴、同様に縦横斜め±45度の4方向から走査して、文字線がどの方向に延びているのかを特徴とする方向寄与度密度特徴などを用いていました。一方、DNNは特徴を自動的に抽出することができます。DNNを用いて小さな物体の認識[5]、一部が隠れている物体の認識[6]、なりすましの認識[7][8]、画像のノイズ除去[9]、マスク顔の表情認識[10]などに取り組んできました。図5は、なりすましの認識の研究で提案したDNNです。

   パターン認識やコンピュータビジョンの研究には、解決しなければならない多くの課題があります。たとえば、データ量が膨大な問題に対しては実時間処理が難しいこと、明るさや色として観測される画像情報は、照明、向き、反射などの影響を受けやすいこと、顔や声などの生体認証分野では経年変化への対応が難しいことなどです。DNNにも課題が残されています。たとえば、学習のために大量のデータが必要であること、大量の学習データにラベルを付与する必要があること、出力結果に対する根拠の説明が難しいことなどです。今後は、このような課題に取り組むとともに、この分野に興味を持つ大学生や大学院生を増やしたいと考えています。

参考文献

[1] https://www.gifu-nct.ac.jp/elec/deguchi/sotsuron/makino/node13.html

[2] https://www.researchgate.net/figure/An-illustration-of-the-architecture-of-AlexNet-CNN-14_fig4_312188377

[3] 荒井正之,王晋申,奥田健三,宮道壽一 : Honeycombネットによる多字種の手書き漢字認識,電子情報通信学会論文誌,Vol.J76-D-II, No.11, pp.2316 – 2323 (1993).

[4] Kohonen, T. : ”Self-Organized Formation of Topologically Correct Feature Maps, ” Biol. Cybern. 43, pp.59-69 (1982).

[5] Linh Duy Tran and Masayuki Arai : A Two-Stage Training Deep Neural Network For Small Pedestrian Detection, IEEE International Workshop on Machine Learning for Signal Processing (MLSP2017)(2017.9).

[6] Tran Duy Linh and Masayuki Arai: “Two-stage Deep Neural Network for General Object Detection, ” Journal of Information Processing, Vol. 27, No. 3, pp. 268-277 (2019.3) DOI http://dx.doi.org/10.2197/ipsjjip.27.268

[7] Nguyen Minh Son, Tran Duy Linh and Masayuki Arai: Attended-Auxiliary Supervision Representation for Face Anti-spoofing, 15th Asian Conference on Computer Vision (ACCV2020)

[8] Nguyen Minh Son, Tran Duy Linh, Duc Le and Masayuki Arai: Self-Attention Generative Distribution Adversarial Network for Few- and Zero-Shot Face Anti-Spoofing, 2022 IEEE International Joint Conference on Biometrics (IJCB2022)

[9] Tran Duy Linh, Nguyen Minh Son and Masayuki Arai.: GAN-based Noise Model for Denoising Real Images, 15th Asian Conference on Computer Vision (ACCV2020)

[10] Qiang Wu, Kouichi Hamada and Masayuki Arai : SCN-SAM: A Modified Self-Cure Network for Facial Expression Recognition under Face Masks, The 25th IEEE International Conference on Advanced Communications Technology (2023.2).

                                                                                                                                                                                                                                                                                                                 以上