# 李宏毅 2023 春机器学习课程

# ChatGPT 原理刨析

ChatGPT 不是联网的，并且目前的回答对于 2021 年以后的信息不太准确。

ChatGPT 所做的就是文字接龙（语言模型），获得文字的几率，所以每一次的输出结果可能并不相同，并且在每次选出一个词之后，再将该词语加入到输入之后，继续进行处理，获得下一个文字，直到获得 end。

为了使 ChatGPT 具有根据历史记录进行回答的能力，其实每一次都会将历史记录也和当前的问题一起丢入输入当中

这个函数 $f$ 的参数大概会有 1700 亿个参数。

ChatGPT 的训练过程：

# ChatGPT 关键技术预训练

预训练 （Pre-train）又称为 自督导式学习 （Self-supervised Learning），其所得到的模型又被称为 基石模型 （Foundation Model）。

ChatGPT 即基于 Transformer 预训练的生成式聊天（Chat Generative Pre-trained Transformer）。

# 0x01 预训练

网络上每一段文字都可以教机器做文字接龙，GPT 就是使用的网络上的内容进行训练。

GPT-1、GPT-2、GPT-3 在模型上逐渐更大，性能也逐渐更好，从 100 多 M 到 175G，但这个时候没有人来进行干预，所以 GPT 模型的输出有时候是无厘头的。

GPT 通过督导式训练后才变成了 ChatGPT，经过 微调 （finetune）。

# 0x02 预训练的帮助

在多种语言上做预训练，只要教某一种语言的某一个任务，可以自动学会其他语言的同样任务。

# 0x03 增强式学习

给与的反馈比较简单，并且适用于答案不确定的情况，只需要给反馈就好了。

# ChatGPT 带来的研究问题

# 0x01 如何精准提出问题

对 ChatGPT 进行催眠（Prompting）。

# 0x02 如何更正错误

# 0x03 如何侦测 AI 生成

# 0x04 不小心泄露秘密

Machine Unlearning

# 用 ChatGPT 玩文字冒险游戏

首先对 ChatGPT 进行催眠

再加上游戏插图

# ChatGPT 是怎么炼成的

# GPT 社会化的过程

ChatGPT 和 Insruct GPT 很像，通过 Instruct GPT 就可以知道 ChatGPT 是怎么被训练出来的。

# ChatGPT 学习的四个阶段

# 学习文字接龙

不需要人工介入，GPT 自己在网络上学习，GPT 学到的是概率，从概率分布中进行随机抽取，因而 GPT 的每一次输出都是不一样的。

文字接龙就足够用于进行问题回答了，但是回答往往没有目的性。

# 人类老师引导文字接龙的方向

找人来思考想问 GPT 的问题，并人工给出正确答案（告诉 GPT 以后多看这些类似的有益的文句，不要去网络上看一些有的没的）。不需要穷尽所有的问题，我们只要告诉 GPT 人类的偏好，大概提供几个范例就够了。

# 模仿人类老师的喜好

GPT 只要学习人类对哪一类回答的喜爱程度，不需要正确答案，只要知道人类对于答案的选择，就可以通过构建 Teacher Model 学习，自己得知，在众多回答中，哪一个答案是较好的，而哪些答案是差劲的。

# 用增强式学习向模拟老师学习

ChatGPT 进行自问自答，学习应该给出那种回答更正确。

机器学习