前言
结合计算机视觉、机器人领域5大顶会(CVPR/ICCV/IROS/ICRA/ECCV),以及产业界的需求,总结3个当下热门及前沿的研究领域。
三维视觉
三维视觉是传统的研究领域,但最近 5 年内得到快速发展。三维视觉主要研究内容有:三维感知(点云获取及处理)、位姿估计(视觉SLAM)、三维重建(大规模场景的三维重建、动态三维重建)、三维理解(三维物体的识别、检测及分割等)。
视频理解
随着新型网络媒体的出现,以及5G时代的到来,视频呈现爆炸式增长,已成为移动互联网最主要的内容形式。面对于海量的视频信息,仅靠人工处理是无法完成的,因此实现视频的智能化理解则成为了亟待解决的问题。
自 2012 年,深度学习在图像理解的问题上取得了较大的突破,但视觉理解比图像的目标检测识别要复杂的多。这是因为视频常有许多动作,动作往往是一个复杂概念的集合,可以是简单的行为,但也可能是带有复杂的情绪、意图。举个简单的例子,对一段视频分类,与对一幅图像分类,哪个更容易一些?
从最近几年知名的计算机视觉竞赛,也可以看出,图像层面的竞赛在减少,视频层面的竞赛在增加。
多模态融合
多模态融合的知识获取是指从文本、图片、视频、音频等不同模态数据中交叉融合获取知识的过程。
随着计算机视觉越来越成熟之后,有一些计算机视觉解决不了的问题慢慢就会更多地依赖于多个传感器之间的相互保护和融合。