蒋依依,usb,最近我的妹妹有点怪-雷竞技-雷竞技电竞平台

频道:今日头条 日期: 浏览:137

本文作者:Liyang

作者校园:复旦大学

研讨方向:Object Detection/CNN complier

论文地址:https://arxiv.or巫夷人家g/pdf/1903.11752.pdf

源码地址:htt明格斯迪格斯怎样打ps://github.com/mohhao/TF-Keras-ThunderNet

论文作者:Zheng Qin, Zeming Li, Zhaoning Zhang, Yiping Bao, Gang Yu, Yuxing Peng, Jian Sun(megvii旷视科技)

1、ThunderNet的全体结蒋依依,usb,最近我的妹妹有点怪-雷竞技-雷竞技电竞渠道构

输入为320x320分辨率,全体结构分红名为SNet的轻型Backbone(骨干)和Detection(检测)部分。

蒋依依,usb,最近我的妹妹有点怪-雷竞技-雷竞技电竞渠道

2、骨干部分(Backbone Part)

ThunderNet输入分辨率(Input Resolution)。作者选用320*320的分辨率,意图是进步推dhfplayer理速度。作者经过试验剖析,一方蒋依依,usb,最近我的妹妹有点怪-雷竞技-雷竞技电竞渠道面,小分辨率图画会丢掉较SpyNote多的细节特征,很难经过添加骨干网络的容量来补偿,如SNet5嗯疼35(输入分辨率192x192)超越SNet146(分辨率320x320)8.2%的算力,但AP反而下降了14%;另一方面,小骨干网络太弱,很难满意大标准图画的编码需求,如SNet48(分辨率480x480)即便算力超越了SNet146(分辨率320x320),但依然显着低于后者的AP;因而,作者以为输入分辨率和骨干网络应该匹配。

雨农谈股

SNet骨干网络(Backbone Networks)。作者以为骨干网络需求恪守两大准则:

榜首,较大的感触野。由欧美男女于CNN只能在承受区域内捕获信息,较大的感触野能够运用更多的信息并更有效地编码长距离像素之间的联系。

第二,浅层特征和蒋依依,usb,最近我的妹妹有点怪-雷竞技-雷竞技电竞渠道深层特征数量的平衡。浅层特征空间信息丰厚,深层特征较小刘乱扯小而有更大的区别性。

作者以为ShuffleNetV1 / V2 [1] [2]具有感触野有限,ShuffleNetV2和MobileNetV2[3]短少浅层信息,Xception[4]缺少深层信息,因而根据ShuffleNetV2,构建一个名为SNet的轻量级骨干。

作者介绍了三个骨干:SNet49用于更快推理,SNet535有更高的准确性,SNet146可统筹推理速度和准确性,实际上是经过处理浅层conv5及通道数量来完成。相对于ShuffleNetV2,作者选用5x5深度卷积替换一切3x3深度卷积,两者推理速度简直适当,但前者有效地扩展了感触野(从121像素到193像素)。

3、检测部分(Detection Part)

紧缩 RPN 和检测头题

作者以为一般的two-stage检测器RPN(Feature Pyramid Network)较大,检测头较重,Light-Head R-CNN [5] 虽有轻量级的检测头,但与较小的骨干衔接时依然太重,导致冗余核算,并且添加过拟合的危险。根据Light-Head R-CNN,作者做了如下改进来紧缩RPN:

作者运用一个5x5 depthwise convolution 和一个256-channel 1x1 convolution替代原始RPN中256-channel 3x3 convolution;选用分别为{32^2,64^2,128^2,256^2,512^2}的5个标准和分别为{1:2,3:4,1:1,4:3,2:1}的5个长宽比来生成anchor boxes,完成紧缩RPN的意图。试验标明此举可削减28%的核算量,不会丢失精度!

Light-Head R-CNN在RoI warping前面会发生ppchannels(池化巨细p = 7, = 10)的feature map,因为ThunderNet骨干输入标准更小了,因而作者运用 =5来减小冗余核算。并运用PSRoI align替代RoI warping来紧缩通道数到。考虑到SRoI align的RoI特征仅为245-d,作者在R六独天缺-CNN子网络中运用1024-d全衔接层。此举可进一步下降13%核算量,但可能会丢失0.2AP!

上下文增强模块(Context Enhancement Module)

作者以为在感触野要求下,Light-Head R-CNN选用的GCN (Global Convoluti凉情雾里onal Network)[6]核算过高,传统FPN结构有许多额定的卷积和检测分支,会带来核算成本和巨大的运行时延,因而作者规划了CEM模块以扩展感触野,CEM的要害思维是聚合多标准的部分上下文信息和大局上下文信息,以生成更具区别性的特征。

CEM交融来自三个标准的特征图:C4选用11卷积将通道数量紧缩为 245,C5进行2X上采样,并选用11卷积将通道数量紧缩为245,Cglb选用average pooling做Broadcast以确保特征图空间标准相同。

CEM简直不添加核算量,但可提高1.7 AP!

空间留意模块(Spatial Attention Module)

因为ThunderNet是轻量级骨干,喀门输入图画较小,为了改进RoI warping的远景区域特征散布。考虑到经练习的RPN对远景辨认较好,作者规划了SAM模块,其要害思维是引进RPN来优化feature map的特征散布,意图是按捺布景特征。如下图所示,SAM的输入为:RPN中心特征图和CEM的“薄”特征图(thin feature map),两者加权作为SAM输出。

SAM可提高1.7 AP,会添加5%的核算量。

4、试验

作者在PASCAL VOC数据集上测验成果如下,ThunderNetSNet49仅有MobileNet-SSD的21%核算量, Thunder NetSNet146仅占Tiny-DSOD的43%核算量,mAP均显着优于后者。特别SNet535在核算量与Tiny-DSOD适当情况下,超越后者6.5 mAP。【原文标写过错为SNet146】

作者在MS COCO数据集上测验成果如下,ThunderNetSNet49相同不越狱虚拟定位显着优于MobileNet-SSD,ThunderNetSNet146在不超越40%核算量下,超越MobileNet-SSD、MobileNet-SSDLite、Pelee。ThunderNetSNet535超越其他one-stage网络至少4.8 AP, 5.8 AP50 和 6.7 AP75。

ThunderNet在推理速度上也有微弱功能,Th孙松君underNet SNet146在Snapdragon 845 (ARM)上到达13.8fps,在Xeon E5-2682v4 (CPU)上到达32.3fps,在GeForce 1080Ti (GPU)上到达248fps!

5、总结

作者提出来一种名为ThunderNet的轻量级two-stage检测器,全体结构分红名为SNet的轻型B蒋依依,usb,最近我的妹妹有点怪-雷竞技-雷竞技电竞渠道ackbone(骨干)和Detection(检测)部分,其间SNet是根据ShuffleNetV2网络,用于目标检测叶倩文儿子,Detection部分是根据Light-Head R-CNN,并进一步紧缩RPN和R-CNN子网,并规划了两个模块:Context Enhancement Module (CEM) 和 SpatialAttention Module (SAM),CEM将多标准的部分特蒋依依,usb,最近我的妹妹有点怪-雷竞技-雷竞技电竞渠道征和大局特征进行整合,SAM引进RPN信息来再调整RoIwarping层的特征散布。ThunderNet在推理速度、精度均明显优于同类网络,可布置在ARM渠道上完成实时检测。

参阅:

[1] X. Zhang, X. Zhou, M. Lin, and J. Sun. Shufflenet:An extremely efficient convolutional neural network for mobile devices. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6848-6856, 2018

[2] N. Ma, X. Zhang, H.-T. Zheng, and J. Sun. Shufflenet v2:Practical guidelines for efficient cnn architecture design. In Proceedings of the European Conference on Computer Vision(ECCV), pages 116-131, 2018

[3] M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, and L.-C.Chen. Mobilenetv2:Inverted residuals and linear bottlenecks.In Proceedings of the IEEE Conference on C多宝余omputer Vision and Pattern Recognition, pages 4510-4520, 2018

[4] F. Chollet. Xception:Deep learning with depthwise separable convolutions. In Proceedings of the IEEE conference on comp中华之帝国的复苏uter vision and pattern recognition, pages 1251-1258,2017

[5] Z. Li, C. Peng, G. Yu, X. Zhang, Y. Deng, and J. Sun. Lighthead r-cnn:In defense of two-stage object detector. arXiv preprint arXiv许立华:1711.07264, 2017

[6] C. Peng, X. Zhang, G. Yu, G. Luo, an阿腾堡d J. Sun. Large kernel matters-improve semantic segmentation by global convolution network. In Proceedings of th蒋依依,usb,最近我的妹妹有点怪-雷竞技-雷竞技电竞渠道e IEEE conference on computer vision and pattern recognition, pages 4353-4361 2017

pp821