我们的专业付出,值得您的永久信赖!为您量身定制,信誉第一!

订货热线:16428221892

推荐产品
  • 开云app登录:中国篮球何去何从
  • 胜负剖析:霍福德统治加时 76人延续失误断送时机【开云app登录】
  • 开云app登录:HughBroughton事务所设计Welbeck新展馆
当前位置:首页 > 产品中心 > 打桩松木
20大热门项目告诉你,盘算机视觉未来的五大趋势【开云app登录】

 


18833
本文摘要:随着深度学习的进步、盘算存储的扩大、可视化数据集的激增,盘算机视觉方面的研究在已往几年蓬勃生长。

随着深度学习的进步、盘算存储的扩大、可视化数据集的激增,盘算机视觉方面的研究在已往几年蓬勃生长。在自动驾驶汽车、医疗保健、零售、能源、语言学等诸多领域,盘算机视觉的应用都越来越广。

我将在本文中先容 2018 年主导了盘算机视觉研究的 5 个主要趋势。详尽回首太难,此处只会分享这个领域中令我印象深刻的成就。1 — 合成数据合成数据,即人工合成、用来训练深度学习模型的数据,在 2018 年的盘算机视觉研究领域绝对是重头戏。

开云app登录

例如这个 SUNCG 数据集 被用于模拟室内情况,这个 Cityscapes 数据集被用于驾驶和导航,这个合成人类的 SURREAL 数据集 被用于学习姿势预计和追踪。让我们一起来过一遍 2018 年使用合成数据的最佳结果们:在 How Well Should You Label (你该标志得多好) 中, 作者着眼于为了从现代 CNN 架构中获得良好的支解质量,对训练标签的质量要求有多低。

这很重要,因为合成数据通常以其像素完美的质量而闻名。作者在 Auto City 数据集上举行实验,证明最终的支解质量确实与标志所花费的时间量密切相关,但与每个标签的质量无关。Soccer on Your Tabletop (桌面上的足球) 提出了一个可以拍摄足球角逐的视频流并将其转换为移动 3D 重建的系统,该重建可被投影到桌面上并使用增强现实设备举行寓目。系统提取运发动的界限框,使用姿势和深度预计模型分析人物图形,最终获得很是准确的3D场景重建。

现有的大多特征学习方法都缺乏人类那样同时从差别信息源学习的能力。Cross-Domain Self-supervised Multi-task Feature Learning(跨领域自监视多任务特征学习) 使用合成图像通过提出一个原始的多任务深度学习网络来解决这个差距,该网络使用合成图像来更好地学习跨模态设置中的视觉表现。

通过合成图像训练网络大大淘汰了多任务学习所需的往往昂贵且耗时的数据注释。为了弥合真实数据和合成数据之间的跨域差距,在无监视的特征级域适应方法中接纳反抗性学习,增强了在视觉特征知识到现实世界任务的迁移方面的体现。Training Deep Networks with Synthetic Data (用合成数据训练深度网络) 提出了一种依赖合成数据的域随机化训练用于真实物体检测的深度神经网络数据的准确方法。

域随机化通过刻意和随机地滋扰情况的纹理来迫使网络聚焦并识别工具的主要特征,从而淘汰对高质量模拟数据集的需求。为了增强这一历程的性能,会举行联合合成数据和真实数据的分外训练,从而弥合现实差距、获得更好的性能。

论文还提出了差别的方法来发挥合成数据的潜力,认为这一领域将在未来几年进一步生长。2 — 视觉问答视觉问答(Visual question answering,VQA)是一种联合盘算机视觉和自然语言处置惩罚的新问题。

通常涉及到给盘算机展示一张图片,让盘算机回覆关于图片的问题。谜底可以是以下任何一种形式:一个单词,一个词组,是/否,选择题谜底,或者是填空题谜底。诸如 DAQUAR, Visual7W, COCO-QA, VQA 之类的多种数据集都致力于解决这项任务. 让我们同样来看看视觉问答领域的今年最佳:Embodied QA 以建立完全智能署理为目的,这些署理可以主动感知,在基于情况的对话中自然交流、体现和执行下令。

通过目的驱动的 3D 设置智能导航,署理被要求基于工具识别和视觉定位和明白往返答问题。有趣的是,该署理仅使用自我中心视觉来导航其周围情况。这意味着署理没有提供舆图,只能通过原始感官输入(像素和单词)举行训练,而且必须依靠知识来导航不熟悉的情况。

尺度的 VAQ 模型不如人类自然互动那样采样高效、简要,而是被动地依赖于大型静态数据集。Learning by asking questions 通过引入模拟自然学习的更具互动性的 VQA 模型填补了这一研究空缺。在这篇文章中,通过评估其先前获得的知识并询问相关的好问题来最大化来自发送到 oracle 的每个图像-问题对学习信号,训练署理像人一样学习。

该论文还展示了交互式提问如何显著淘汰冗余和训练所需样本,以实现准确率提高40%。Inverse Visual QA (iVQA) 毗连了其他旨在通过专注于开发视觉定位来提高尺度 VQA 模型性能的模型。

本文颠倒了盛行的 VQA 任务,目的是在给定图像/谜底对的情况下生成问题。尺度 VQA 的学习偏差破坏了评估历程。

iVQA 使用部门生成的问题,对应于图像-谜底对的偏差较小的学习先验,以实现更多的视觉定位。Interactive QA 致力于解决尺度 VAQ 模型的一个短板:通常是被动的,不能训练能够在其情况中导航、交互和执行任务的完全智能的署理。该模型使用具有语义空间影象的多级控制器方法,收集模拟真实场景的富厚数据集和广泛的问题以评估模型。它推动尺度 VQA 朝着建立完全视觉智能署理的最终目的迈进。

开云app登录

有效地评估当前最先进的 VQA 模型的性能并防止它们依赖有偏差的训练先验是一个仍在开发中的领域。为了这一目的,Grounded Visual QA 模型提供了一种新方法,可以直接分散从合理的先前谜底中识别出的工具,从而迫使模型更多地去视觉定位。

从该陈诉的优异结果以及当前社区对这一研究领域的关注来看,未来用创新方法进一步推进 VQA 模型很有希望。3 — 域适应2018年有一些特定的研究偏向,一个是域适应。

该领域实际上与合成数据密切相关。它解决了为监视学习收集标志数据集并确保数据足够可靠和多样化这一庞大挑战。这个问题的本质是,我们如何使用一种数据来让网络能处置惩罚差别的数据。

Unsupervised Domain Adaptation with Similarity Learning(用相似度学习实现无监视域适应 使用反抗性网络处置惩罚域适应。作者让一个网络从标志的源域和另一个网络中提取特征,以实现从一个未标志的目的域中提取具有相似但差别数据漫衍的特征。训练模型以将目的原型与所有其他原型区离开来的分类是差别的。

为了标志来自目的域的图像,作者将图像的嵌入与来自源域的原型图像的嵌入举行比力,然后分配其最相近标签。Image to Image Translation for Domain Adaptation (域适应的图像到图像转换 研究用于图像支解的域适应,其广泛用于自动驾驶汽车,医学成像和许多其他领域。从基础上来说,这一域自适应技术必须找到从源数据漫衍到目的数据漫衍的映射结构。

该方法使用3种主要技术:(i)domain-agnostic feature extraction(从源域和目的域提取的特征的漫衍无法区分),(ii)domain-specific reconstruction(嵌入可以被解码回源域和目的域 ),和(iii)cycle consistency(正确学习映射)。Conditional GAN for Structured Domain Adaptation (用于结构化域适应的条件 GAN 提供了一种新方法,通过结构化域自适应方法克服语义支解模型中跨域差异的挑战。与无监视域自适应差别,该方法不假设存在跨域公共特征空间,而是接纳条件生成器和判别器。因此,条件 GAN 被集成到 CNN 框架中,迁移标志的合成图像域到未标志的真实图像域。

该方法的效果优于以前的模型,凸显了合成数据集在推进视觉任务方面不停增长的潜力。训练基于深度学习的模型依赖大量带注释的数据集需要大量资源。只管在许多视觉识别任务中实现了最先进的性能,但跨域差异仍然是一个庞大的挑战。

开云app登录

为了跨域迁移知识, Maximum Classifier Discrepancy for Unsupervised Domain Adaptation 使用新颖的反抗性学习方法举行域适应,而不需要来自目的域的任何标志信息。据视察,这种方法最小化来自目的域的样本的两个分类器的概率预计之间的差异,可以发生用于从分类到语义支解的种种任务的类判别特征。4 — 生成反抗网络2018 年对于盘算机视觉最乐成的生成模型 - 生成反抗网络(GAN)来说无疑是重要的一年。

让我们来浏览一些革新 GAN 模型的今年度最佳作品:条件 GANs 已经广泛用于图像建模,但它们对于气势派头迁移也很是有用。尤其是它们可以学习与特定图像元素相对应的显著特征,然后改变它们。在PairedCycleGAN for Makeup中,作者们提出了一个图片妆容修整的框架。他们为差别的面部组件训练各自的生成器并单独应用它们,用差别的网络提取面部要素。

Eye Image Synthesis with Generative Models(生成模型的眼睛图像合成) 着眼于生成人眼图像的问题。这是一个有趣的用例,因为我们可以使用生成的眼睛来解决视线预计问题——一小我私家在看什么?作者使用眼形合成的概率模型和 GAN 架构来生成遵循该模型的眼睛。Generative Image In-painting with Contextual Attention(基于内容感知生成模型的图像修复) 探讨了填补图像空缺这一挑战性问题。

通常,要修复图像,我们需要相识基础场景。而这种方法使用 GAN 模型,使用周围图像中的特征来显著改善生成。当前最先进的基于 GAN 的文本到图像生成模型仅在句子级别编码文本形貌,并忽略能够改善生成图像质量的单词级此外细粒度信息。AttnGAN 提出了一种新颖的词级注意力机制,在制作庞大场景时效果更赞。

和普遍的看法差别的是,神经网络的乐成主要来自于他们从数据中学习的强大能力,Deep Image Prior(深度图像先验) 展示了网络结构对于建设良好的图像先验的重要性。本文提出了一种作为成像任务先验的解码网络。有趣的是,作者展示了在任何学习之前,生成器网络就足以捕捉大量的低级图像统计数据。作者还使用该方法通过发生所谓的自然预图像(natural pre-images)来研究保留在网络的差别级此外信息内容。

同样有意思的是,使用深度图像先验作为正则项,从很是深的层级获得的预图像中仍然能获取大量信息。只管 GANs 很乐成,但其判别器网络作为普通监视任务(如语义支解)的通用损失函数并不算很乐成。

Matching Adversarial Networks(匹配反抗网络) 强调了背后的原因,即损失函数不直接依赖生成器训练期间的真实值(ground truth)标志,这导致从数据漫衍中随机发生样本而不以监视方式关联输入-输出关系。为了克服这个问题,本文提出用匹配网络替换判别器,同时思量真实值输出以及生成的示例——由孪生网络架构促成。

5 — 3D 工具明白3D 工具明白对于深度学习系统乐成解释和指引现实世界至关重要。例如,网络或许能够在街道图像中定位汽车,为其所有像素着色,并将其归类为汽车。

但问题在于它是否真的能够明白图像中的汽车相对于街道中的其他物体的位置。3D 工具明白涉及广泛的研究领域,包罗工具检测,工具跟踪,姿态预计,深度预计,场景重建等。

开云app登录

让我们来看看 2018 年该领域的主要论文:Detect-and-Track 是 2017 年泛起的最有前途的图像支解方法之一 Mask R-CNN 的延伸。作者提出了一种 3D Mask R-CNN 架构,它使用时空卷积来提取特征并直接识别短片中的姿势。完整的架构如下所示。

它在姿势预计和人体追踪方面实现了当前最优效果。Pose-Sensitive Embeddings for Person Re-Identification 应对了行人重识别(person re-identification)的挑战。通常,这个问题通过基于检索的方法来解决,即求导查询图像与来自某个嵌入空间的存储图像之间的相似度怀抱。

这篇论文提出将姿势信息直接嵌入到 CNN 中,并设计了一个无监视的重排序新方法。架构如下图所示。3D Poses from a Single Image(基于单色图像的 3D 姿势 ) 提出了一种姿势预计的特别方法。它直接通过一种联合了姿势预计、人体轮廓支解和网格生成的端到端卷积结构生成人体的 3D 网格,关键点在于它使用了 SMPL,一种统计学身体形状模型,为人体的形状提供了良好的先验。

因此,它得以从一张单色图像结构人体的 3D 网格。Flow Track (光流相关滤波) 则致力于工具追踪问题。它是相关滤波类方法(DCF,discriminative correlation filter)的扩展,学习与工具相对应的滤波并将其应用于所有视频帧。其模型体系结构具有空间-时间注意力(spatial-temporal attention)机制,关注视频中的差别时间帧。

(译者注:在 spatial attention 中,用余弦距离权衡,对空间位置上每一个待融合的点分配权重:和当前帧越相似,权重越大,反之越小;这么做的问题是当前帧的权重永远是最大的,于是作者借鉴 SENet 的思想设计了时间权重 temporal attention,即把每一帧看做一个channel,设计一个质量判断网络,网络输出的效果是每一帧的质量打分。temporal attention 和 spatial attention 联合,实现 feature map 的融合。)与上述的 Flow Track 相同,Correlation Tracking 也是用相关滤波处置惩罚工具追踪。然而这种方法不使用深度神经网络,相反,它包罗可靠性信息 - 这意味着作者在目的函数中添加了一项,用于模拟学习过滤器的可靠性。

希望你会喜欢这篇短评。如果你有兴趣探索更多,建议阅读CVPR,ICLR, 以及机械学习和人工智能领域最负盛名的集会——NeurIPS。

原作:James Le 编译泉源:https://heartbeat.fritz.ai/the-5-trends-that-dominated-computer-vision-in-2018-de38fbb9bd8。


本文关键词:开云app登录

本文来源:开云app登录-www.israelemergingtech.com