GPT-4 强势发布!重磅升级 ChatGPT Plus、API、必应

背景

经过 6 个月的时间迭代开发,OpenAI 最新发布大型多模态模型 GPT-4,强势升级了 GPT-3.5 模型!在新版 Bing 搜索上已经应用,同时开放了 API 及在 ChatGPT Plus 中使用最新模型,功能全部一步到位。

新版 GPT-4 有哪些亮点?

  1. 特别新增了图像分析功能。以前只有文本输入、文本回复的聊天形式,现在可以帮助我们解析、提炼图像想要表达的信息
  2. 各种专业和学术基准上表现出人类水平的表现。模拟律师考试中,能达到前 10%的水平。而 GPT-3.5 只能排在倒数 10%,水平提升非常明显
  3. 支持自定义 ChatGPT 语气和风格
  4. 提高了文本输入限制,以及其他准确性提升,大段论文可以直接解析

当前只能通过网页端 ChatGPT Plus 来体验,API 开发者用户可以加入 waitlist 申请

GPT-4 waitlist: https://openai.com/waitlist/gpt-4-api

为了准备图像输入功能以实现更广泛的可用性,OpenAI 正在与bemyeyes.com 密切合作。

官方还开源了 OpenAI Evals,这是 OpenAI 用于自动评估 AI 模型性能的框架,允许任何人报告 GPT-4 模型中的缺点,以帮助指导进一步改进。

完整介绍之前,先给大家推荐小编写的两款 ChatGPT 扩展插件,增强你的 ChatGPT 使用体验,欢迎给小编提出建议。

ChatGPT 的超级助手:推荐一款谷歌插件轻松自动保存对话历史

一键导出 ChatGPT 聊天记录为 Markdown 文本

我们来看看官方发布还介绍了哪些内容

以下内容主要翻译自官方博客:https://openai.com/research/gpt-4,并做了部分精简和解读,请按需阅读。

能力

GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。

为了了解这两种模型之间的区别,我们在各种基准测试中进行了测试,包括最初为人类设计的模拟考试、奥林匹克竞赛、自由问答比赛。

Simulated examsGPT-4estimated percentileGPT-4 (no vision)estimated percentileGPT-3.5estimated percentile
Uniform Bar Exam (MBE+MEE+MPT)1298 / 400~90th298 / 400~90th213 / 400~10th
LSAT163~88th161~83rd149~40th
SAT Evidence-Based Reading & Writing710 / 800~93rd710 / 800~93rd670 / 800~87th
SAT Math700 / 800~89th690 / 800~89th590 / 800~70th
Graduate Record Examination (GRE) Quantitative163 / 170~80th157 / 170~62nd147 / 170~25th
Graduate Record Examination (GRE) Verbal169 / 170~99th165 / 170~96th154 / 170~63rd
Graduate Record Examination (GRE) Writing4 / 6~54th4 / 6~54th4 / 6~54th
USABO Semifinal Exam 202087 / 15099th–100th87 / 15099th–100th43 / 15031st–33rd
USNCO Local Section Exam 202236 / 6038 / 6024 / 60
Medical Knowledge Self-Assessment Program75%75%53%
Codeforces Rating392below 5th392below 5th260below 5th
AP Art History586th–100th586th–100th586th–100th
AP Biology585th–100th585th–100th462nd–85th
AP Calculus BC443rd–59th443rd–59th10th–7th

我们还在为机器学习模型设计的传统基准上评估了 GPT-4。 GPT-4 大大优于现有的大型语言模型,以及大多数最先进的 (SOTA) 模型,其中可能包括特定于基准的制作或额外的培训协议:

BenchmarkGPT-4Evaluated few-shotGPT-3.5Evaluated few-shotLM SOTABest external LM evaluated few-shotSOTABest external model (includes benchmark-specific training)
MMLUMultiple-choice questions in 57 subjects (professional & academic)86.4%5-shot70.0%5-shot70.7%5-shot U-PaLM75.2%5-shot Flan-PaLM
HellaSwagCommonsense reasoning around everyday events95.3%10-shot85.5%10-shot84.2%LLAMA (validation set)85.6%ALUM
AI2 Reasoning Challenge (ARC)Grade-school multiple choice science questions. Challenge-set.96.3%25-shot85.2%25-shot84.2%8-shot PaLM85.6%ST-MOE
WinoGrandeCommonsense reasoning around pronoun resolution87.5%5-shot81.6%5-shot84.2%5-shot PALM85.6%5-shot PALM
HumanEvalPython coding tasks67.0%0-shot48.1%0-shot26.2%0-shot PaLM65.8%CodeT + GPT-3.5
DROP (f1 score)Reading comprehension & arithmetic.80.93-shot64.13-shot70.81-shot PaLM88.4QDGAT

许多现有的 ML 基准测试都是用英语编写的。 为了初步了解其他语言的能力,我们使用 Azure 翻译将 MMLU 基准——一套涵盖 57 个主题的 14,000 个多项选择题——翻译成多种语言。 在测试的 26 种语言中的 24 种中,GPT-4 优于 GPT-3.5 和其他 LLM(Chinchilla、PaLM)的英语语言性能,包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言:

我们也在内部使用 GPT-4,对支持、销售、内容审核和编程等功能产生了巨大影响。 我们还使用它来帮助人类评估 AI 输出。

图像分析

GPT-4 新增的图像分析能力,你可以传图片让它介绍图片内容,或者组合图像和文本信息,还能解析更复杂的文档、图表、屏幕截图。

官方给了几个内部测试的案例

1.分析图片的隐藏笑点

用户:

这张图的笑点在哪?

GPT-4:

该图显示了带有三个面板的“Lightning Cable”适配器的包装。

面板 1:带有 VGA 连接器(一种大的蓝色 15 针连接器,通常用于计算机显示器)的智能手机已插入其充电端口。

面板 2:“Lightning Cable”适配器的包装,上面有 VGA 连接器的图片。

面板 3:VGA 连接器特写,末端有一个小型闪电连接器(用于为 iPhone 和其他 Apple 设备充电)。

这张图片中的幽默来自将过时的大型 VGA 连接器插入小型现代智能手机充电端口的荒谬做法。

2.分析图表

用户:

格鲁吉亚和西亚的平均每日肉类消费量总和是多少? 在提供你的答案之前提供一个循序渐进的推理。

GPT-4:

要找到格鲁吉亚和西亚的平均每日肉类消费量总和,我们将遵循以下步骤:

  1. 确定格鲁吉亚的平均每日肉类消费量。
  2. 确定西亚的平均每日肉类消费量。
  3. 添加步骤 1 和 2 中的值。

第 1 步:从提供的图表中,我们看到格鲁吉亚的平均每日肉类消费量为每人每天 79.84 克。 步骤
2:从图表中我们可以看出,西亚的人均每日肉类消费量为 69.62 克/人/天。 第 3 步:将第 1 步和第 2 步中的值相加。
79.84 克(格鲁吉亚)+ 69.62 克(西亚)= 149.46 克

因此,格鲁吉亚和西亚的平均每日肉类消费量总和为每人每天 149.46 克。

3.图文分析解题

用户:

回答问题 I.1.a。 一步步思考。


GPT-4:

要回答问题 I.1.a,我们需要表达导电棒各点的温度 T(x),用横坐标 x 表示。 我们已知 T(0) = T0 和 T(L) = Tb。

对于静止状态,棒中一维热传导的热方程为: d²T/dx² = 0

积分一次,我们得到: dT/dx = C₁

第二次积分: T(x) = C₁x + C₂

为了确定常数 C₁ 和 C₂,我们使用边界条件: T(0) = T0,由此得出 C2 = T0 T(L) = Tb,由此得出 C₁ = (Tb – T0) / L

最后,T(x) 的表达式为: T(x) = (Tb – T0) * (x / L) + T0 这表示沿导电棒的线性温度曲线,斜率为 (Tb – T0) / L。

4.图片找特点

用户:

这张图片有什么不寻常之处?

GPT-4:

这张照片的不同寻常之处在于,一名男子正在行驶中的出租车车顶上的熨衣板上熨烫衣服。

5.论文总结

用户:

以下是 InstructGPT 论文的一部分。 你能读一下并总结给我听吗?

GPT-4:

InstructGPT 论文侧重于训练大型语言模型以遵循带有人类反馈的指令。
作者指出,使语言模型变大并不能从本质上使它们更好地遵循用户的意图。 大型模型可能会生成不真实、有毒或根本无用的输出。

为了解决这个问题,作者使用人工反馈对各种任务的语言模型进行了微调。
他们从一组标记器编写的提示和响应开始,然后收集所需模型行为的标记器演示数据集。 他们使用监督学习微调
GPT-3,然后使用来自人类反馈的强化学习进一步微调模型。 生成的名为 InstructGPT
的模型显示了真实性的提高和有毒输出生成的减少,同时对公共 NLP 数据集的性能回归最小。

作者得出结论,根据人类反馈进行微调是使语言模型与人类意图保持一致的一个有前途的方向。

6.图像分析联想

用户:

你能解释一下这个模因吗?

GPT-4:

这个模因是一个笑话,结合了两个不相关的东西:太空中的地球照片和鸡块。 模因的文字表明,下图是从太空拍摄的地球的美丽照片。
然而,图像实际上是鸡块排列成隐约类似于世界地图。 这个模因中的幽默来自于文本和图像意想不到的并置。
文字建立了对地球宏伟形象的期望,但这个形象实际上是平凡而愚蠢的。

7.漫画分析

用户:

你能解释一下为什么这很有趣吗? 一步步考虑。

GPT-4:

该漫画讽刺了统计学习和神经网络在提高模型性能方面的差异。

在统计学习中,该角色被证明与过度拟合有关,并提出了一系列复杂的技术解决方案,例如最小化结构风险、重新设计损失函数和使用软边际。

相比之下,神经网络特征只是建议向模型添加更多层。 这通常被视为提高神经网络性能的常见解决方案,但它也被认为是一种过于简单和蛮力的方法。

幽默来自统计学习方法的复杂性和特异性与神经网络方法的简单性和通用性之间的对比。
“但没有讽刺意味”的评论增加了幽默感,暗示尽管简单,但“堆叠更多层”的方法在实践中通常是有效的。

当前的基准测试表明 GPT-4 的性能已经非常强悍,如下的基准测试表:

BenchmarkGPT-4Evaluated few-shotFew-shot SOTASOTABest external model (includes benchmark-specific training)
VQAv2VQA score (test-dev)77.2%0-shot67.6%Flamingo 32-shot84.3%PaLI-17B
TextVQAVQA score (val)78.0%0-shot37.9%Flamingo 32-shot71.8%PaLI-17B
ChartQARelaxed accuracy (test)78.5%A58.6%Pix2Struct Large
AI2 Diagram (AI2D)Accuracy (test)78.2%0-shot42.1%Pix2Struct Large
DocVQAANLS score (test)88.4%0-shot (pixel-only)88.4%ERNIE-Layout 2.0
Infographic VQAANLS score (test)75.1%0-shot (pixel-only)61.2%Applica.ai TILT
TVQAAccuracy (val)87.3%0-shot86.5%MERLOT Reserve Large
LSMDCFill-in-the-blank accuracy (test)45.7%0-shot31.0%MERLOT Reserve 0-shot52.9%MERLOT

OpenAI 表示还在不断研究该模型能够做的更多新的任务,未来会发布进一步分析和评估。请注意,当前的图像输入仍然是研究预览,暂时没有公开。

可操纵性

在小编的之前一篇文章 支持最新 GPT 模型的 ChatGPT API 现已开放!含 Python 示例 中介绍过,在 GPT-3.5 模型的 API 中可以定义系统消息,相当于一个管理员,可以设置助手的行为和特征,比如指定“你是一个有用的助手”。当前推出的 GPT-4 模型,允许 API 用户在一定范围内自定义 ChatGPT 的语气和风格,增强用户体验

一部分系统消息演示

详细开发指导:https://platform.openai.com/docs/usage-policies

限制

GPT-4 尽管功能很强大,但它和早期的 GPT 模型有相似的局限性,有时候会虚构事实并作出错误的推理。

小编在体验 ChatGPT 的时候也发现了,它对稍微大一点的场景设计容易出现上下文衔接不上的问题。前几句回复还能保持和当前场景融合,越到后面越会脱离当前场景做一些新的设计,并且这些设计并不符合当前的场景。

OpenAI 表示,在每次迭代中都会改进,这也是 ChatGPT 开放使用的意义,在训练中持续优化。这些问题 GPT-4 虽然没有完全解决,但是相对于以前的模型,在我们的内部对抗性真实性评估中,GPT-4 的得分比 GPT-3.5 高 40%

在 TruthfulQA 等外部基准测试方面取得了进展

GPT-4 基本模型在此任务上仅比 GPT-3.5 略好; 然而,在 RLHF 后训练(应用与 GPT-3.5) 差距很大。有时候 GPT-4 也会选错,可能存在各种偏差

根据我们的 最近的博客文章,他们的目标是构建的 AI 系统具有合理的默认行为,反映广泛的用户价值观 ,允许在广泛的范围内定制这些系统,并就这些范围应该是什么获得公众意见。

GPT-4 普遍缺乏对绝大部分数据中断后(2021 年 9 月)发生的事件的了解,并且不从其经验中吸取教训。 它有时会犯简单的推理错误,这些错误似乎与跨多个领域的能力不相称,或者在接受用户明显的虚假陈述时过于轻信。 有时它会像人类一样在难题上失败,例如在它生成的代码中引入安全漏洞。

GPT-4 也可能自信地在其预测中犯错,在可能出错时不注意仔细检查工作。 有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。 然而,通过我们目前的训练后过程,校准减少了。

风险与缓解措施

我们一直在对 GPT-4 进行迭代,以使其从训练开始就更安全、更一致,工作包括选择和过滤预训练数据、评估和专家参与、模型安全性改进以及监控和执行。

GPT-4 会带来与之前模型类似的风险,例如生成有害建议、错误代码或不准确信息。 但是,GPT-4 的附加功能会带来新的风险面。 为了了解这些风险的程度,我们聘请了 50 多位来自 AI 对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家来对模型进行对抗性测试。 他们的发现特别使我们能够在需要专业知识进行评估的高风险领域测试模型行为。 这些专家的反馈和数据用于我们对模型的缓解和改进; 例如,我们收集了额外的数据来提高 GPT-4 拒绝有关如何合成危险化学品的请求的能力。

GPT-4 在 RLHF 训练期间加入了额外的安全奖励信号,以通过训练 模型拒绝对此类内容的请求。 奖励由 GPT-4 零样本分类器提供,该分类器根据安全相关提示判断安全边界和完成方式。 为了防止模型拒绝有效请求,我们从各种来源(例如,标记的生产数据、人工红队、模型生成的提示)收集了多样化的数据集,并对两者应用安全奖励信号(具有正值或负值) 允许和不允许的类别。

与 GPT-3.5 相比,我们的缓解措施显着改善了 GPT-4 的许多安全特性。 与 GPT-3.5 相比,我们已将模型响应不允许内容请求的倾向降低了 82%,并且 GPT-4 根据我们的政策响应敏感请求(例如,医疗建议和自我伤害)的频率提高了 29% .

总的来说,我们的模型级干预增加了引发不良行为的难度,但这样做仍然是可能的。 此外,仍然存在生成违反我们使用指南 的内容的“越狱”。 随着人工智能系统“每个代币的风险”增加,在这些干预中实现极高的可靠性将变得至关重要; 目前,重要的是通过监控滥用等部署时安全技术来补充这些限制。

GPT-4 和后续模型有可能以有益和有害的方式对社会产生重大影响。 我们正在与外部研究人员合作,以改进我们理解和评估潜在影响的方式,以及对未来系统中可能出现的危险功能进行评估。 W 我们将很快分享更多关于 GPT-4 和其他人工智能系统的潜在社会和经济影响的想法。

训练过程

与之前的 GPT 模型一样,GPT-4 基础模型经过训练可以预测文档中的下一个单词,并且使用公开可用的数据(例如互联网数据)以及我们已获得许可的数据进行训练。 这些数据是网络规模的数据语料库,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,并代表各种各样的意识形态和想法。

因此,当出现问题提示时,基本模型可以以多种可能与用户意图相去甚远的方式做出响应。 为了使其与护栏内的用户意图保持一致,我们使用强化学习和人类反馈来微调模型的行为 (RLHF)。

请注意,该模型的能力似乎主要来自预训练过程——RLHF 不会提高考试成绩(如果不积极努力,它实际上会降低考试成绩)。 但是模型的转向来自训练后过程——基础模型需要及时的工程设计甚至知道它应该回答问题。

GPT-4 项目的一大重点是构建可预测扩展的深度学习堆栈。 主要原因是,对于像 GPT-4 这样的非常大的训练运行,进行广泛的特定于模型的调整是不可行的。 我们开发的基础设施和优化在多个尺度上具有非常可预测的行为。 为了验证这种可扩展性,我们通过从使用相同方法训练但使用 10,000 倍更少计算的模型进行推断,准确预测了 GPT-4 在我们内部代码库(不是训练集的一部分)上的最终损失:

现在我们可以准确地预测我们在训练期间优化的指标(损失),我们开始开发方法来预测更多可解释的指标。 例如,我们成功预测了 HumanEval 数据集子集的通过率,从计算量减少 1,000 倍的模型推断:

有些能力仍然难以预测。 例如,Inverse Scaling Prize 是一项竞赛,目的是寻找一个随着模型计算量的增加而变得更糟的指标,事后忽视 是获胜者之一。 就像最近的另一项结果一样,GPT-4 逆转了趋势:

我们认为,准确预测未来的机器学习能力是安全的重要组成部分,但相对于其潜在影响而言,它并没有得到足够的重视(尽管我们受到多家机构的努力的鼓舞)。 我们正在加大力度开发方法,为社会提供更好的未来系统预期指导,我们希望这成为该领域的共同目标。

OpenAI 评估

我们正在开源 OpenAI Evals,这是我们的软件框架,用于创建和运行用于评估 GPT-4 等模型的基准,同时逐个样本地检查它们的性能。 我们使用 Evals 来指导我们模型的开发(识别缺点和防止回归),我们的用户可以应用它来跟踪模型版本(现在将定期发布)的性能和不断发展的产品集成。 例如,Stripe 使用 Evals 来补充他们的人工评估,以衡量其基于 GPT 的文档工具的准确性。

由于代码全部开源,Evals 支持编写新的类来实现自定义评估逻辑。 然而,根据我们自己的经验,许多基准测试都遵循少数“模板”之一,因此我们还包含了模板在内部最有用(包括“模型分级评估”的模板——我们发现 GPT-4 令人惊讶地能够检查自己的工作)。 通常,构建新 eval 最有效的方法是实例化这些模板之一并提供数据。 我们很高兴看到其他人可以使用这些模板和更普遍的 Evals 构建什么。

我们希望 Evals 成为共享和众包基准测试的工具,代表最广泛的故障模式集和艰巨的任务。 作为要遵循的示例,我们创建了一个 逻辑谜题 eval,其中包含十个提示,其中 GPT- 4 失败。 Evals 还与实施现有基准兼容; 我们已经包含了几个 notebooks 实现学术基准和集成 CoQA 的一些变体作为示例。

我们邀请大家使用 Evals 来测试我们的模型并提交最有趣的示例。我们相信 Evals 将成为使用和构建我们模型的过程中不可或缺的一部分,我们欢迎 直接贡献、问题和反馈

ChatGPT Plus

ChatGPT Plus 订阅者将在 chat.openai.com 上获得具有使用上限的 GPT-4 访问权限。 我们将根据实践中的需求和系统性能调整确切的使用上限,但我们预计会受到严重的容量限制(尽管我们将在未来几个月内扩大规模和优化)。

根据我们看到的流量模式,我们可能会为更高容量的 GPT-4 使用引入新的订阅级别; 我们也希望在某个时候提供一些免费的 GPT-4 查询,这样那些没有订阅的人也可以尝试一下。

API

要访问 GPT-4 API(它使用与 gpt-3.5-turbo 相同的 ChatCompletions API,请 注册我们的候补名单。 我们今天将开始邀请一些开发人员,并逐步扩大规模以平衡容量与需求。 如果您是研究 AI 的社会影响或 AI 对齐问题的研究人员,您还可以通过我们的 Researcher Access Program 申请补贴访问。

获得访问权限后,您可以向 gpt-4 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段),随着时间的推移,我们会在制作新版本时自动将其更新为我们推荐的稳定模型(您可以固定 当前版本通过调用 gpt-4-0314,我们将支持到 6 月 14 日)。 定价为每 1k 个提示令牌 0.03 美元和每 1k 个完成令牌 0.06 美元。 默认速率限制为每分钟 40k 个令牌和每分钟 200 个请求。

gpt-4 的上下文长度为 8,192 个标记。 我们还提供对我们的 32,768-上下文(约 50 页文本)版本 gpt-4-32k 的有限访问,该版本也将随着时间的推移自动更新(当前版本 gpt-4-32k-0314,也支持到 6 月 14 日 ). 定价为每 1K 提示令牌 0.06 美元和每 1k 完成令牌 0.12 美元。 我们仍在提高长期上下文的模型质量,并希望得到有关它在您的用例中表现如何的反馈。 我们正在根据容量以不同的速率处理对 8K 和 32K 引擎的请求,因此您可能会在不同时间获得对它们的访问权限。

结论

我们期待 GPT-4 成为一个有价值的工具,通过为许多应用程序提供动力来改善人们的生活。 还有很多工作要做,我们期待通过社区在模型之上构建、探索和贡献的集体努力来改进这个模型。

发表评论取消回复

退出移动版