大模型相关(2)

野生技术
Created 2024/10/29

注意力机制 (高频 但不是重点)

1. 注意力机制有助于克服循环神经网络(RNNs)的一些挑战,例如输入序列长度增加时性能下降和顺序处理输入导致的计算效率低下。

解决传统编码器-解码器模型的挑战,避免信息损失和无法建模输入输出对齐的问题。

允许解码器访问整个编码的输入序列,通过注意力权重选择性地关注相关信息。

自动学习注意力权重,捕捉编码器和解码器之间的相关性。

构建上下文向量,使解码器能够全面访问输入序列并重点关注相关部分。

提高模型性能,改善输出质量,并提供更好的解释性。

2. 在自然语言处理(NLP)、计算机视觉(Computer Vision)、跨模态任务和推荐系统等多个领域中,注意力机制已成为多项任务中的最先进模型,取得了显著的性能提升。

3. 注意力机制不仅可以提高主要任务的性能,还具有其他优势。它们被广泛用于提高神经网络的可解释性,帮助解释模型的决策过程,使得原本被认为是黑盒模型的神经网络变得更易解释。这对于人们对机器学习模型的公平性、可追溯性和透明度的关注具有重要意义。

Transformer为什么重要

1. 注意力机制

2. GPU并行计算

3. 以句子为单位的自然表达