Lec10 | Recognition#

Question

待补充！！感觉我对深度学习的理解还不是很透彻，本篇内容没有过多加入我自己的思路。

Semantic segmentation#

如上图所示，语义分割就是识别图像中存在的内容以及位置。

我们一般使用FCN(Fully Convolutional Networks)来解决语义分割问题。在传统的FCN基础上，我们加上了两个trick:

Pooling and Unpooling: 如果不加入池化层，则效率太低，但是由于普通的池化会缩小图片的尺寸，为了得到和原图等大的语义分割图，我们需要向上采样/反卷积。

Skip Layer: 作用是优化结果。因为我们在pooling,Unpooling的过程中丢失了信息，因此在不同的unpooling层中，我们额外增加原pooling层的输入。

该网络被称作U-Net。

U-Net输出之后，我们会再加一步条件随机场优化能量函数：

\[ E(x)=\sum_i \theta_i(x_i)+\sum_{i,j}\theta_{i,j}(x_i,x_j) \]

评估语义分割结果，我们使用Intersection-over-union(IoU)

最大的困难就是我们不知道图像中有几个物体，要输出几个bounding box

基于图片提取出若干可能包含物体的区域

First stage: run once per image
- Backbone network
- RPN
Second stage:run once per image
- Crop features: Rol pool/align
- Predict object class
- Predict bbox offset

Non-Max Suppression 有时候同一个物体，网络会输出两个Bounding box，这时候我们需要选取概率最大的。

Faster R-CNN使用CNN来选取RP

RPN

YOLO

对于目标检测的每个框中的物体，判断每个像素是属于前景还是背景

Top-down:
- Detect humans and detect keypoints in each bbox
- Example: Mask R-CNN
Bottom-up:
- Detect keypoints and group keypoints to form humans
- Example: OpenPose

Last update: 2024年11月9日 17:03:32
Created: 2024年8月11日 11:55:40