本文共 1357 字,大约阅读时间需要 4 分钟。
卷积神经网络(CNN)是一种广泛应用于深度学习的模型,擅长处理序列化数据,如文本、音频和视频。它通过将序列浓缩为抽象表示,以此来描述序列并生成新序列。然而,传统的RNN模型在处理长序列时表现欠佳。其特殊变体——“”却能有效应对这些挑战。这类模型在多个任务中展现出强大的性能,包括机器翻译、语音识别和图像描述等领域。
随着CNN的流行,研究者们不断探索提升RNN效果的方法,四大改进方向尤为突出。这些技术为RNN提供了更广阔的发展空间,且都基于相同的基础——聚焦机制(attention)。这些技术的结合不仅提升了模型性能,还为未来深度学习的发展奠定了重要基础。
神经图灵机器(NMT)将RNN与外部记忆模块相结合。其记忆模块由一组向量组成。读写过程的关键在于区分操作区域。神经图灵机器通过不同的程度来执行读写操作。例如,读取时,模型生成聚焦分布,描述对记忆位置的关注程度,从而实现带权重的累加读取。同样,写入操作通过聚焦分布决定写入的程度,记忆单元中的新值是旧值与新值的组合,位置由聚焦权重决定。
神经图灵机器通过结合内容聚焦和位置聚焦来决定读写区域。基于内容的聚焦使模型能够搜索记忆库并关注相关区域,而基于位置的聚焦则允许模型在记忆区域中循环。这种读写能力使神经图灵机器能够执行复杂操作,如循环重复和模仿查询表。然而,它们在基础任务如加法、乘法等方面表现有限。
自NMT论文发表以来,研究者们提出了多种改进方案。例如,神经GPU克服了NMT无法执行加法和乘法的缺陷。采用强化学习方法训练NMT,Neural Random Access Machines(NeurRMA)基于指针运行。这些模型解决的任务相对简单,但NMT在能力上有了显著突破。
这些模型有多个开源实现版本。例如,TensorFlow、Theano、Go、Torch和Lasagne均提供了NMT的开源代码。神经GPU的代码已开源并被合并至某平台。记忆网络的实现有Torch/Matlab、Theano和TensorFlow等。
聚焦机制在多个应用中发挥重要作用。例如,在语言翻译中,聚焦机制避免了传统序列到序列模型的信息损失。RNN逐个处理输入词语信息,聚焦机制关注相关区域生成目标语言词语。在语音识别中,聚焦机制可让一个RNN处理语音信号,另一个RNN滑动处理输出并聚焦相关区域生成文本。
聚焦机制还用于文本解析和会话模型生成。例如,模型可以根据之前会话内容生成回复。聚焦机制还可作为CNN和RNN的接口,使RNN每一步关注图像不同区域,生成图像描述。
适应性计算时间(Adaptive Computation Time,ACT)是解决RNN计算时间固定问题的方法。ACT通过聚焦分布设定不同计算步骤,输出带权重结合结果。训练ACT模型时,可在损失函数中添加“思考成本”,惩罚累积计算时间。ACT仍处于发展阶段,但其概念具有潜力。
未来,技术与媒介的结合将推动机器学习发展。例如,AlphaGo通过神经网络指导搜索,DeepMath处理数学表达式。聚焦机制通过同时探索所有路径,避免了强化学习的选择性。尽管聚焦机制的计算资源消耗线性增长,但稀疏化聚焦和其他优化方法仍有提升空间。
增强RNN和聚焦技术的发展令人激动。期待它们在未来取得更大进展!
转载地址:http://garfk.baihongyu.com/