概述
在 2018 年 6 月,OpenAI 提出了 GPT 神经网络模型,该模型立即在多种语言类测试中展现出极佳结果。 GDP-2 于 2019 年出现,而 GPT-3 则于 2020 年 5 月提出。 这些模型展示了神经网络生成相关文本的能力。 尚有其他实验涉及生成音乐和图像的能力。 这一模型的主要缺点与它们涉及的计算资源相关。 在配备 8 颗 GPU 的计算机上训练第一个 GPT 花费了一个月的时间。 为了解决新问题,使用预先训练的模型,可部分弥补这一缺陷。 但考虑到模型的规模,需要大量资源来维持模型的运行。
编辑切换为居中
(资料图)
1. 理解 GPT 模型
从概念来讲,GPT 模型是在之前研究的变换器基础上构建的。 主要思路是基于大数据针对模型进行无监督预训练,然后再依据相对少量的标记数据进行微调。
分两步训练的原因在于模型规模。 像 GPT 这样的现代深度机器学习模型涉及大量参数,可多达数亿个。 因此,这种神经网络的训练需要大量的训练样本。 当采用监督学习时,创建带标记的训练样本集合是件劳动密集型工作。 与此同时,网站上有许多不同的数字化和无标记文本,这些文本非常适合模型的无监督训练。 然而,统计数据表明,无监督学习相较监督学习,其结果要差很多。 因此,在无监督训练之后,可依据相对少量的标记数据样本针对模型进行微调。
无监督学习可令 GPT 学习语言类模型,而针对特定任务,可依据标记数据进一步训练,从而调整模型。 因此,为了执行不同的语言类任务,可以复制并微调一个预训练的模型。 该限制基于采用无监督学习的原始语言集合。
实践表明,这种方法对于广泛的语言问题能产生良好的效果。 例如,GPT-3 模型能够针对给定主题生成连贯流畅的文本。 不过,请注意,指定的模型包含 1750 亿个参数,按顺序依据 570GB 的数据集合上进行了预训练。
尽管 GPT 模型是为处理自然语言类而开发的,但它们在音乐和图像生成任务中也表现出色。
理论上,GPT 模型可与任何数字化数据序列配合使用。 唯一的前置需求是无监督的预学习需要足够的数据和资源。
2. GPT 与之前研究的变换器之间的区别
赫兹量化来研究 GPT 模型与之前研究的变换器有何区别。 首先,GPT 模型未使用编码器,因为它们仅使用解码器。 当没有编码器时,模型不再拥有“编码器 - 解码器自关注”内层。 下图展示了 GPT 变换器模块。
编辑
与经典的变换器相似,GPT 模型中的模块在彼此之上构建。 每个模块针对关注机制都有自己的权重矩阵,并具有完全连接的前馈层。 模块的数量决定了模型的规模。 模块堆栈可能会很庞大。 GPT-1 和最小的 GPT-2(小型 GPT-2)有 12 个模块;GPT-2 特大型有 48 个,而 GPT-3 则有 96 个模块。
与传统语言类模型类似,GPT 仅能够发现与序列中先前元素的关系,但无法窥视未来。 但它与变换器不同,GPT 不使用元素的掩码 — 代之,它更改了计算过程。 GPT 会重置 Score 矩阵中后续元素的关注比率。
同时,GPT 可被归类为自回归模型。 每次迭代都会生成一个序列令牌。 生成的令牌会被添加到输入序列中,并馈入模型进行下一次迭代。
与经典变换器一样,自关注机制内的每个令牌都会生成三个向量:一个 query,一个 key,和一个 value。 在自回归模型当中,在每次新迭代里,输入序列仅能由 1 个令牌更改,因此每个令牌无需重新计算向量。 因此,GPT 中的每一层只在序列有新元素时计算向量。 每个变换器模块都保存其向量,以备后用。
这种方式令模型能够在接收最终令牌之前逐词生成文本。
当然,GPT 模型采用多目击者关注机制。
3. 实现
在开始之前,我们来简要地复习一下算法:
令牌的输入序列会被馈入到变换器模块之中。
针对所有自关注目击者的一个序列。 进而,对于每个关注的目击者,2-5 中的动作是相同的。
令牌向量乘以相应的权重矩阵 W(已训练),可计算每个令牌的三个向量(query,key,value)。
将 'query' 和 'key' 相乘,赫兹量化可判定序列元素之间的依赖性。 在此步骤,将序列中每个元素的向量 'query' 乘以序列中当前元素和所有先前元素的 'key' 向量。
在每个 query 的上下文中,使用 SoftMax 函数对获得的关注得分矩阵进行常规化。 序列的后续元素则设置了零关注分数。
作为第 3 步和第 4 步的结果,赫兹量化获得了平方矩阵 Score,该平方矩阵的大小依据序列中元素的数量来确定,在其内每个 'query' 的上下文中所有元素的合计为 “1”。
将常规化的关注分数乘以序列相应元素的 'value' 向量,然后与结果向量相加,我们可以得到序列 (Z) 的每个元素的关注校正值。
接下来,赫兹量化基于所有关注目击者的结果断定加权 Z 向量。 为此,将来自所有关注目击者的校正后的 “value” 向量串联到单一向量,然后乘以正在训练的 W0 矩阵。
所得张量会被添加到输入序列,并进行常规化。
多目击者自关注机制后随前馈模块的两个完全连接层。 第一层(隐藏)包含的神经元数量比之含有 ReLU 激活函数的输入序列多 4 倍。 第二层的尺寸等于输入序列的尺寸,且神经元不使用激活函数。
完全连接层的结果与张量求和,其张量将被馈入前馈模块。 然后将生成的张量常规化。
标签:
-
量化交易软件:神经网络变得轻松11
概述在2018年6月,OpenAI提出了GPT神经网络模型,该模型立即在多种语言
-
体恤退役军人 渌口区暖心义诊送健康
株洲新闻网8月4日讯(通讯员谢意晴)8月2日,渌口区退役军人事务局联合
-
七十五万分之一!徐州九顶山野生动物园自然繁殖诞下白化小浣熊
徐州野生动物园白化小浣熊引关注,专家开讲堂普及保护知识。
-
助学贷款不还会有什么后果?必知八大严重后果
助学贷款主要面向家庭经济困难的普通高校新生、在校生发放,属于国家财
-
一吨沥青的价格是水泥的十倍还不止,明明用水泥铺路,路面更坚硬,成
一吨沥青的价格是水泥的十倍还不止,明明用水泥铺路,路面更坚硬,
-
蓝水翡翠很贵吗
蓝水翡翠是比较昂贵的宝石。它指的是翡翠中颜色鲜艳且透明度较高的蓝色
-
鹤峰夏日好风光:农家花开引蝶来
鹤峰夏日好风光:农家花开引蝶来---炎炎夏日,蓝天白云下,洪大伯家种
-
俄外交部宣布削减罗马尼亚驻俄外交人员数量
中新社莫斯科8月3日电(记者田冰)俄罗斯外交部3日发表声明表示,俄方决
-
“三期叠加”,防灾避险提示!
8月1日,广东汕尾海丰县有网友称多名市民在莲花山大东门玩水时遇涨水多
-
展风采 创佳绩|湖北国土资源职业学院参加湖北省教师教学能力比赛再获优异成绩
近日,在湖北省教育厅公示的2023年教师教学能力比赛获奖名单中,湖北国
-
山水比德8月4日快速回调
以下是山水比德在北京时间8月4日09:59分盘口异动快照:8月4日,山水比
-
孚能科技上市即变脸连亏三年超25亿 广州工控集团拟17.28亿溢价28%入主
上市才满三年,孚能科技(688567 SH)实控人甫一解禁就计划出让公司控
-
是什么让上海劳力士赛成为亚洲网球的赛事先锋?
今日,上海劳力士大师赛的赛事拥有方上海久事体育产业发展(集团)有限
-
龙江森工集团:闻“汛”而动!多点出击打好防汛“组合拳”
点击蓝字关注我们“要超常规抓好主汛期防汛工作,进一步强化责任落实,
-
高凌信息(688175.SH):802.23万股限售股8月14日起上市流通
格隆汇8月3日丨高凌信息(688175 SH)公布,公司本次上市流通的限售股数
-
九州金榜 | 小学阶段,要培养孩子哪些好习惯,家长必读!
父母日常生活中,要重视孩子阅读习惯的培养,比如:与孩子一起看书,或
-
从沈阳故宫书法展看“篆隶中兴”
中新网沈阳8月3日电(记者韩宏)清代是中国古代书法发展史上一个极为重要
-
英飞凌第三季度业绩表现强劲,2023财年展望已确认
【2023年8月3日,德国诺伊比贝尔格讯】英飞凌科技股份公司发布2023财年
-
沧州经济开发区幼儿园2023年秋季招生公告
招生对象3至5周岁(即2017年9月1日及以后,2020年8月31日及以前出生)
-
铭利达:子公司拟5亿元投建新能源精密结构件项目
铭利达公告,公司全资子公司广东铭利达拟与东莞市清溪镇政府签署项目投
-
广生堂(300436)8月3日主力资金净买入566.93万元
截至2023年8月3日收盘,广生堂(300436)报收于26 79元,上涨2 21%,换手
-
“杀死一切癌瘤”!抗癌神药即将诞生?CXO午后再发力,医疗ETF(512170)涨超1%
午后,CXO概念股再发力,康龙化成、皓元医药涨超4%,药明康德大涨超3%
-
男子徒步旅游迷路,警民联手暖心救助
QMG青岛广电8月3日讯近日,一名外地男子徒步旅行,在深夜经过青岛西海
-
网传门头沟丁家滩村“没了” 村工作人员:村子还在,无人员伤亡!全村今天全部撤离
近日,网传门头沟区妙峰山镇丁家滩村“没了“,网友拍摄的视频和照片中
-
中央气象台发布暴雨蓝色预警
中央气象台发布暴雨蓝色预警---人民网北京8月3日电(记者杨虞波罗)据
-
2023年小雪贵人运旺盛的四大星座 得到质的提升
如果一个人最近生活运气非常好,那么无论是做什么都会一帆风顺,无论是
-
降雨重心转至东北!防汛最新信息汇总
2日,京津冀地区降雨继续减弱,不过雨水此消彼长,在副热带高压外围暖
-
杏坛镇入选2022广东文化强省建设示范案例(镇街)
珠江商报讯记者陈家好通讯员杏宣报道:8月1日,“传承岭南文化,永续城
-
修订后的《山东省未成年人保护条例》10月起施行,细化规范未成年人保护
修订后的《山东省未成年人保护条例》10月起施行,细化规范未成年人保护
-
今日豆粕价格行情预测
有关进口大豆通关延迟的传闻发酵,油厂挺粕动力再度提升,豆粕现货市场