予測は、OpenCVのdnnクラスのAPI forwardを使用している。
サンプルでは以下の様に記載されている
cv::Mat detectionMat = net.forward("detection_out"); //compute output
結果は、Mat型 detectionMat に格納されている。
detectionMatのサイズは、[85 x 845]である
これをrowsの数繰り返し、信頼度がしきい値を越えているかの判定し、越えている場合、描画している
85の内容
1 領域中心X座標2 領域中心y座標
3 幅 0-1
4 高さ 0-1
5 信頼度
6 クラスID 1の信頼度
85 クラスID 80の信頼度
プログラムでは、std::max_element を使用しID 1から ID 80の最高の値のindexを計算
845の内容
845 = 13 x 13 x 5Yolo 9000 原文
This modified YOLO predicts detections on a 13 × 13 feature map.
13 x 13 は grid数だが 5の意味は不明
入力画像
サイズは、416x416に固定(原文に記載)分かり次第追記予定
0 件のコメント:
コメントを投稿