OpenAI发布了ChatGPT,这是从技一个基于其GPT-3.5语言模型(LM)的对话式人工智能模型。ChatGPT使用来自人类反馈的术视强化学习(RLHF)进行微调,并包括一个审核过滤器来阻止不适当的互动 。
该版本是角理解在OpenAI博客上宣布的。ChatGPT的从技训练方法与用于训练OpenAI的指令跟随语言模型InstructGPT的方法相同,即RLHF。RHLF使用两个数据集:一个是术视人类写的例子,用于GPT-3.5 LM的监督微调;另一个是人类标记的LM输出比较,用于训练强化学习的奖励模型 。OpenAI发布了ChatGPT,以获得用户的角理解反馈并探索其局限性。
今天ChatGPT的从技研究发布是OpenAI迭代部署越来越安全和有用的AI系统的最新步骤 。从GPT-3和Codex等早期模型的术视部署中获得的许多经验教训为这个版本的安全缓解措施提供了参考,包括通过使用来自人类反馈的强化学习,大幅减少有害和不真实的输出…我们知道仍有许多限制…我们计划定期进行模型更新,在这些方面作出改进。但我们也希望,通过为ChatGPT提供一个可访问的角理解界面,我们将获得关于我们尚未意识到的问题的宝贵用户反馈。
GPT-3.5是从技OpenAI的GPT系列大型语言模型的最新产品。今年早些时候,OpenAI发表了一篇关于InstructGPT的术视技术论文,它试图通过将LM的输出与用户的意图 "对齐 "来减少其毒性和幻觉。首先,LM的角理解基线 "政策 "在一组提示LM的数据集上进行了微调,同时还有人写的期望反应。接下来,从LM生成的从技对提示的反应数据集中训练奖励模型,这些反应由人类标签人员进行排序