博客
关于我
CVPR2021| TimeSformer-视频理解的时空注意模型
阅读量:592 次
发布时间:2019-03-10

本文共 1393 字,大约阅读时间需要 4 分钟。

Transformer在视频理解中的应用与Divided Space-Time Attention

前言

Transformer在视频理解领域的应用主要采用三种典型方式:Joint Space-Time Attention、Sparse Local Global Attention 和Axial Attention。这些方法的共同点在于,它们都基于ViT模型中的分块方式处理图像,但在self attention的应用上各有不同。

近期,我们提出了一种新的处理方式——Divided Space-Time Attention。在大规模行为分类数据集上对比了上述几种方法与Divided Space-Time Attention,发现后者在处理这些块时表现最佳。

此外,TimeSformer在多个主流行为识别基准测试中实现了State-of-the-Art(SOTA)结果,如Kinetics-400和Kinetics-600等。此外,TimeSformer具有更快的训练速度和更高的测试效率。

论文思路

视频理解与语言处理(NLP)有许多相似之处。首先,视频和语句都具有序列性,且一个片段需要与整个上下文相关联。因此,我们期待NLP中的长程自注意力模型在视频模型中也能取得良好表现。

视频领域的传统方法主要是2D或3D卷积来提取时空特征。然而,卷积操作的一个显著问题是感受野有限,若要获得全局感受野,需要堆叠多层卷积层,信息传播路径较长。而自注意力机制可以轻松实现全局感受野,捕获局部和长程依赖关系。

此外,卷积操作受内存限制,尤其是在高分辨率和长帧之间权衡。近年来,研究表明Transformer相比CNN具有更快的训练和推理速度,在相同计算预算下可以使用更大模型容量。

标准自注意力机制需要计算所有token之间的相似性,计算量较大。因此,我们需要探索如何利用自注意力处理图像块。论文比较了几种处理方式,提出Divided Space-Time Attention是最优选择。

某些细节

这几种方式的通用部分是将视频帧分成大小为P×P的块,每帧可以分成N=H×W/(P×P)块。它们的区别在于如何选择块进行自注意力处理。

  • Space Attention:将同一帧的所有块一起进行自注意力处理,忽略了不同帧之间的时序信息。

  • Joint Space-Time Attention:将所有图像块进行自注意力处理,计算量过大。

  • Sparse Local Global Attention:分两步处理,先提取局部信息,再按步长提取全局信息,具有一定稀疏性,计算量减少。

  • Axial Attention:分三步处理,先处理不同帧同位置的块进行时间注意力,再分别按横向和纵向进行空间注意力。

  • 我们提出Divided Space-Time Attention分为两步:先对不同帧同位置的块进行时间注意力,再将同一帧中所有块进行空间注意力。

    下图展示了具体示意图。

    实验结论

    对比这几种方式的参数量和准确度,发现Divided Space-Time Attention表现最佳。

    论文来源

    本文来源于公众号CV技术指南的论文分享系列,更多内容请关注公众号。

    最近将公众号所有技术总结打包成PDF,在公众号中回复关键字“技术总结”可获取。


    如需进一步了解,可以访问相关链接或关注公众号获取更多信息。

    转载地址:http://yazvz.baihongyu.com/

    你可能感兴趣的文章
    PHP数据文件过大,导致PHP加速器eaccelerator在PHP5.2版本下崩溃
    查看>>
    RabbitMQ - 死信、TTL原理、延迟队列安装和配置
    查看>>
    PHP数据访问的多重查询(租房子查询)
    查看>>
    RabbitMQ - 如保证消息的可靠性?(消息确认、消息持久化、失败重试机制)
    查看>>
    RabbitMQ - 基于 SpringAMQP 带你实现五种消息队列模型
    查看>>
    php数组函数分析--array_column
    查看>>
    php数组去重复数据的小例子
    查看>>
    php数组实现:哈希 +双向链表
    查看>>
    PHP数组排序函数array_multisort()函数详解(二)
    查看>>
    php数组的几个函数和超全局变量
    查看>>
    PHP文件上传详解
    查看>>
    PHP文件锁
    查看>>
    php文本框输入制定文本,php – 当用户没有向文本框输入任何内容时...
    查看>>
    PHP时间戳和日期相互转换操作总结
    查看>>
    php时间戳知识点,php 时间戳函数总结与示例
    查看>>
    php更新数据库失败,php – 无法更新MySQL数据库
    查看>>
    php机器人聊天对话框,基于AIML的PHP聊天机器人
    查看>>
    PHP查找数组中最大值与最小值
    查看>>
    php查最大值,在PHP数组中查找最大值
    查看>>
    php标签筛选,关于PHP CodeIgniter框架中通过<a>标签和url做多条件分类筛选
    查看>>