您现在的位置 : 首页 > 网上展示

宝马娱乐平台

网上展示

图文展示目标检测的现代发展历史

时间:2019-04-05 11:13:41  来源:本站  作者:

 

  定位图像中包含的所有物体并对他们进行分类。通常包含两个步骤:推荐可能包含物体的区域+对这些区域进行分类。

  当图像的一个特定区域(神经元的感受野范围)中出现了一个特定的图案(特征)时,那么这个区域对应的隐藏的神经元就会被激活。

  通常,高层的单个特征点会有更大的感受野,这让它可以学会抽取更复杂、抽象的图案。卷积网络结构决定了每一层感受野的变化。

  通过将同一个特征检测器以滑窗的方式作用在一副图像的不同位置上(卷积),就得到了一系列的特征。一张特征图上的所有特征(点)拥有同样的感受野范围,并且他们都在原图中寻找同样的激活图案,只是位于不同的位置。这种特性造就了卷积网络的空间不变性。

  一系列的特征图,每个特征图都在上一层特征图中寻找特定的图案。所有特征都拥有相同的感受野范围。

  具有k个隐藏节点的全连接层可以看做是11k的特征块,这个特征块的每个特征层只有一个特征点,并且这个特征点的感受野覆盖了整幅图像。

  一个全连接层中的权重矩阵W可以被转化为卷积核。在形如whd的卷积特征块上作用一个whk的卷积核可以得到一个11k的特征块(作用效果等于具有k个节点的全连接层,但是权重数量是全连接层的1/(w*h))。通过这种方式,我们可以把卷积网络作用在任意尺寸的图像上。

  反卷积是对卷积中的梯度的反向传播。换句话说,它是卷积层的反向传递。一个反卷积操作可以看做是一个普通的卷积操作,只是需要事先在原特征图的特征点之间插入0值。

  上述左图中,红色的输入特征点影响了输出特征图中的左上角的4个特征点,因此,它从左上角的4个特征点接收反向传播的梯度。这个梯度反向传播的过程可以表示为右图显示的反卷积操作。

  在一个物体识别的管道中,可以通过优化某个特殊的损失函数以实现所有阶段(预处理,区域推荐,分类,后处理)共同训练的目的。这个特殊的损失函数区别于每个阶段独有的损失函数。这种端到端的管道与传统的识别管道是相反的,传统的识别管道把各个阶段用一种不可微分的方式连接在一起(这使得方向传播无法贯穿整个识别管道)。在这种方式下,我们无法知道改变某个阶段的参数对整个识别管道的影响,因此每个识别阶段都要被单独训练或轮流训练。

  这是一个可能含有一个物体的相对于原图的边界框。这些边界框可以由一些启发式的搜索算法给出,如:objectness,selective search。也可以由一个区域提案网络(RPN)结合特征图给出。一个矩形边界框有两种方式表示,一种是给出左上角和右下角的坐标(x0,y0,x1,y1),另一种(更普遍)是给出中心点坐标以及宽度和高度(x,y,w,h)。一个矩形框通常都包含该矩形框中包含一个物体的可能性。

  两个矩形框之间的差异通常用代表它们两者的向量的L2距离来表示。其中w和h在计算距离前会先被对数化。

  用来合并重叠的矩形框(提案或者是识别结果)。与更高置信度的矩形框高度重叠(IoU预设的阈值)的矩形框将被抑制(移除)

  即使推荐的矩形框比较小,没有把物体全部包含在里面,但是我们仍然能够通过观察矩形框对应的图案,推测出能更好的包围物体的矩形框。因此,我们可以训练一个回归器,它接收矩形框对应的特征并且预测该矩形框与实际矩形框之间的差异,进而优化矩形框。回归器有两种,一种是针对特定物体类别的回归器,还有一种是所有类别通用的回归器。矩形框回归器通常伴随着一个矩形框分类器,该分类器用来预测这个矩形框中含有物体的置信度。分类器同样有针对特定类别的和类别通用的两种形式。如果没有定义prior boxes,那么输入的矩形框将扮演它的角色。

  我们可以训练多个矩形框回归器,每个回归器都对应自己独立的prior box(预设矩形框),它们以相同的矩形框区域作为输入,然后它们学习预测各自的prior box和ground truth box的偏移。通过这种方式,对应不同prior box的回归器可以学会预测具有不同属性的矩形框(长宽比、尺寸、位置)。prior box可以预先设置好(相对于输入矩形框),也可以通过聚类的方式进行学习。合适的矩形框回归策略对训练的收敛起到非常重要的作用。

  一个矩形框回归器无法预测一个距离输入区域(或者是prior box)很远的物体的矩形框。因此我们需要一个矩形框匹配策略以确定哪个prior box和ground truth box的重叠度更高。每个成功的匹配都是回归的训练样本。可行的策略有:

  左图:一个具有3个prior boxes(虚线)的区域提案(红色虚线),绿色实线对应的是ground truth box

  中图:这三个边界框回归器只关注红色框对应的输入区域,并且试图根据它们各自的prior box预测出ground truth box

  右图:根据Multibox策略,ground truth box会与蓝色矩形框匹配,并且该匹配会作为训练样本用于训练回归器

  对于每一个prior box都有一个边界框分类器用来分析该矩形框中含有物体的可能性。在矩形框匹配之后,每个成功匹配的prior box都是这个分类器的正样本,所有其它prior box都是负样本。如果我们使用所有这些负样本,那么在正样本和负样本之间存在明显的不平衡。有效的解决方法是:随机选择一些负样本(Faster R-CNN),或者选择那些分类器分类效果最差的样本(SSD),通过这些手段让负样本和正样本之间的比例大概是3:1。

  一、 传统目标检测方法 传统目标检测流程: 1)区域选择(穷举策略:采用滑动窗口,且设置不同的大小,不同的长宽比对图像进行遍历,时间复杂度高) 2)特征提取(SIFT、H...来自:m0_37833310的博客

  目标检测 目标检测要解决的核心问题 目标检测最新进展 目标检测应用来自:quanwei的博客

  目标检测发展这里先给干货:目标检测算法的paper及源码 我总结了深度学习目标检测基本的发展和主要的优缺点,主要参考来自:的博客

  在计算机视觉领域,“目标检测”主要解决两个问题:图像上多个目标物在哪里(位置),是什么(类别)。 围绕这个问题,人们一般把其发展历程分为3个阶段: 1. 传统的目标检测方法 2. 以R-CNN为...来自:NodYoung

  Attention! 我的Dr.Sure项目正式上线了,主旨在分享学习Tensorflow以及DeepLearning中的一些想法。期间随时更新我的论文心得以及想法。 Github地址:https...来自:人生而孤独,却不甘寂寞。

  【时间】2018.09.24 【题目】目标检测近5年发展历程概述,从R-CNN到RFBNet(2013--2018) 目录 概述 一、目标检测相关背景 1.1 目标检测的类别 1 .2 目...来自:小C的博客

  目标检测总结整理 接触过图像处理的童鞋,对于目标检测一定不陌生吧。目标检测可一直是计算机视觉和机器学习领域的热点。这篇文章主要是依据小编自己的学习体会,对目标检测的发展历程进行了总结。最初,目标检测...来自:cassiePython的专栏

  导言 目标检测是计算机视觉和数字图像处理的一个热门方向,广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域,通过计算机视觉减少对人力资本的消耗,具有重要的现实意义。因此,目标检测也就...来自:SIGAI_CSDN的博客

  使用PyTorch从零开始实现YOLO-V3目标检测算法 (一) 点击查看博客原文 标检测是深度学习近期发展过程中受益最多的领域。随着技术的进步,人们已经开发出了很多用于目标检测的算法,包括 YO...来自:vincejia的专栏

  AVOD 论文理解与代码解读论文简析概述网络结构BEV map特征提取rpn 网络特征融合第二阶段检测网络box 编码方向确定代码解读mini batch的产生与作用rpn modelavod mod...来自:的博客

  目前目标检测领域的深度学习方法主要分为两类:two stage的目标检测算法;one stage的目标检测算法。前者是先由算法生成一系列作为样本的候选框,再通过卷积神经网络进行样本分类;后者则不用产生...来自:小熊猫的博客

  介绍 由于最近需要写一篇小目标检测的综述,但是在认真调研之后,发现关于小目标检测的文章真的不多,但是又不想直接放弃度过的文章,所以就写成一篇博客来纪念一下。 在现有的目标检测的文献中,大多数...来自:duanyajun987的博客

  Created with Raphaël 2.1.21602年1602年1606年1606年东印度公司正式成立荷兰东印度公司发行世界上第一张股票形成世界上第一个股票交易市场,阿姆斯特丹股票交易所 C...来自:许后生的博客

  首页IT资讯网络 现代计算机图形界面的发展与变迁 2013-3-25 8:25:04来源:腾讯数码作者:刘鼎责编:悠悠 评论:0 对于大部分用户来说,打开电脑后使用鼠标点击图标,开启...来自:Big_heart_的专栏

  参考链接:近些年来,深度卷积神经网络(DCNN)在图像分类和识别上取得了很显著的提高。回顾从2014到20...来自:u012841667的专栏

  目标检测领域得益于卷积神经网络CNN和region proposal算法的发展,在各种大规模竞赛数据集(ImageNet,Pascal VOC,COCO等)上准确率突飞猛增。 目标检测中非常重要的指...来自:陈龙CL的博客

  原文地址:引言 普通的深度学习监督算法主要是用来做分类,如图1(1)所示,分类的目标是要识别出图中所示是一只猫。而在...来自:michaelhan3的博客

  1.什么是人工智能    摘自百度:人工智能(Aritificial Intelligence, AI)是计算机科学的一个分支,它企图了解智能的实质,并生产出一种以人类智能相似的方式做出反应的智能机器...来自:tiankong_的博客

  第一章     计算机博弈简史 计算机博弈(Computer Game),在某些时候也成为机器博弈,在近年来受到了越来越大的关注。博弈(GamePlaying)是一种竞争,而竞争现象广泛存在与社会活动...来自:HeavyIndustry的专栏

  印象派绘画在现代艺术发展中的地位和作用印象派又称为“外光派”,产生于19世纪60年代的法国,1824年莫奈创作的题为《印象·日出》的油画,遭学院派的攻击,评论家们戏称这些画家们是“印象派”,印...来自:xgopf4的专栏

  运动前景对象检测一直是国内外视觉监控领域研究的难点和热点之一,其目的是从序列图像中将变化区域从背景图像中提取出来,运动前景对象的有效检测对于对象跟踪、目标分类、行为理解等后期处理至关重要,那么...

  CNN从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一个比一个深,一个比一个准确,一个比一个轻量。 作者对近几年一些具有变革性的工作进行简单盘点,从这些充满革新性的工作中探...来自:东南风的博客

  欢迎大家关注我们的网站和系列教程:,学习更多的机器学习、深度学习的知识! by 小韩 (来源: 来自:TensorFlowNews

  微积分的历史演变与现状         站在现代数学的高度观察微积分学的历史演变与现状,实事求是,还原历史原来的面貌,具有极大的现实意义。J.keisler在其巨著《基础微积分》后记中做到了这一点。袁...来自:袁萌专栏

  在深度学习应用到计算机视觉领域之前,研究人员一般使用纹理基元森林(TextonForest)或是随机森林(Random Forest)方法来构建用于语义分割的分类器。 卷积神经网络(CNN)不仅能很...来自:23岁中单想学python

  1谈谈通信发展的历史 好几次做通信讲座, 我都用一个笑话开头:话说在通信发展的历史上,犯了两个错误。第一个错误是,原本以为电话应该是有线的,后来才发现原来应该是无线的。第二个错误是,原本以为电视应该...来自:Precoder的博客

  中国支付结算系统发展史   1949年到今天,中国支付结算系统经历了3个重要的阶段,从无到有,从简单到完善。今天中国的现代支付系统加上各个商业银行内部系统作为基础设计,支撑着第三方支付系统,让我们...来自:Divine Mind

  正如我们预测的那样,去年WebVR领域的动作频频。最有趣的动态之一是亚马逊通过Sumerian开发者预览版正式入局(一个基于浏览器的工具,能够帮助开发者更轻松创建WebVR内容)。对于支持WebVR标...来自:虚拟现实开发

  导言 目标检测的任务是找出图像中所有感兴趣的目标(物体),确定它们的位置和大小,是机器视觉领域的核 心问题之一。由于各类物体有不同的外观,形状,姿态,加上成像时光照,遮挡等因素的干扰,目标检测 一直是...来自:SIGAI_CSDN的博客

  前言 目标检测(Object Detection)是计算机视觉领域的基本任务之一,学术界已有将近二十年的研究历史。近些年随着深度学习技术的火热发展,目标检测算法也从基于手工特征的传统算法转向了基于深...来自:人工智能与机器视觉的博客

  目标检测一直是计算机视觉的基础问题,在 2010 年左右就开始停滞不前了。自 2013 年一篇论文的发表,目标检测从原始的传统手工提取特征方法变成了基于卷积神经网络的特征提取,从此一发...来自:Nobita的博客

  有没有用深度学习卷积网络精确识别物体位置类别的算法?能详细说说吗? 有相关代码就更好了。 毕设课题,开题之际没有想法,很焦虑。 恳求各位大牛前辈帮忙解答。 先在这里跪谢了。

  提到Word相信大家再熟悉不过了,这个经历了20多年发展的文字编辑软件,受到用户的高度肯定,目前发展到Word2010版本,而走过了这么多年的岁月,Word有了怎样的变化与革新,今天就让小编与大家一起...来自:Just for fun的专栏

  1 计算机网络与Internet发展历史 1957年:苏联发射了人类第一颗人造地球卫星“ Sputnik” 1958年:美国国防部(DoD)组建了高级研究计划局(ARPA) 1961-1972:早期分...来自:一万HOURS的知识库

  笔者主要从事图像的识别与分类研究,在这里笔者值探讨卷积神经的发展史。 1.BP 1985年,Rumelhart和Hinton等人提出了后向传播(Back Propagation,B...来自:不问归期的博客

  色彩管理作为一门科学的学科,早在远古时期就被古人们用来描绘对现实世界的认知,通过各种艺术形式记录下一幕又一幕的历史场景,但是受限于时代,古人们对色彩的本质却不甚了了。直到公元1666年,艾萨克·牛顿爵...来自:三恩时

  分拆素数和 把一个偶数拆成两个不同素数的和,有几种拆法呢? Input 输入包含一些正的偶数,其值不会超过10000,个数不会超过500,若遇0,则结束。 Output 对应每个偶数,输出其...来自:zhao10jain的专栏

  博学,切问,近思--詹子知(在密码学中,恺撒密码(或称恺撒加密、恺撒变换、变换加密)是一种最简单且最广为人知的加密技术。它是一种替...来自:zhiqiangzhan的专栏

  相信学习编程的同学,或多或少都接触到算法的时间复杂度和空间复杂度了,那我来讲讲怎么计算。        常用的算法的时间复杂度和空间复杂度 一,求解算法的时间复杂度,其具体步骤是: ⑴ 找出算法...来自:杨威的博客

  Ⅰ、写在前面本文讲述的内容是Keil MDK-ARM版的介绍、下载、安装与注册,如果需要了解Keil C51版相关的文章,可以到我博客,或微信公众号查看并下载。 Keil(C51)介绍、下载、安装与注...来自:strongerHuang的专栏

  强连通分量: 简言之 就是找环(每条边只走一次,两两可达) 孤立的一个点也是一个连通分量   使用tarjan算法 在嵌套的多个环中优先得到最大环( 最小环就是每个孤立点)   定义: int Ti...来自:九野的博客

返回首页返回首页