OpenAI发布新模型CriticGPT：利用GPT优化GPT训练，RLHF实现超越人类能力！

OpenAI发布新模型CriticGPT：利用GPT优化GPT训练，RLHF实现超越人类能力！

article2024/7/1 2:36:18/文章来源:https://blog.csdn.net/ElevenSakura/article/details/140041905

目录

01 基于GPT-4，改进GPT-4

02 CriticGPT取得了哪些成果呢？

03 RLHF的上限不再是人类

近日，OpenAI突然发布了一个新模型！这个模型基于GPT-4训练，旨在帮助下一代GPT的训练。

CriticGPT能够在代码挑错中找到超过75%的错误，而人类只能找到不到25%。

此外，它还能为这些错误撰写“评论”，在60%的情况下，人类训练师更喜欢有CriticGPT帮助下的批评。

但这项研究的关键在于，CriticGPT的挑错能力不仅限于代码。

例如，它可以在RLHF训练中挑出AI输出的错误，且已经被纳入OpenAI的内部训练流程。

更好的RLHF训练能产生更强的模型，而更强的模型又能通过更好地挑错来增强RLHF训练……

没体验过OpenAI最新版GPT-4o？快戳最详细升级教程，几分钟搞定：
升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952

论文结论中明确指出：在真实世界数据中挑错方面，AI还有进步空间，而人类智能已经达到极限。

论文地址：https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf

这篇论文来自已解散的超级对齐团队，由前负责人Jan Leike带队完成。

Leike本人已经跳槽到Anthropic，继续从事类似研究。

01 基于GPT-4，改进GPT-4

OpenAI官网文章间接承认了，GPT-4之后的改进遇到了一些瓶颈：

随着AI能力增强，它犯的错误变得不那么显眼，人类训练师难以发现不准确之处。

人类无法提供反馈，RLHF“人类反馈强化学习”也就无从谈起。

CriticGPT正是为了解决这一挑战而诞生。

CriticGPT基于GPT-4，并接受了RLHF训练，但特别之处在于训练数据中包含大量的错误输入。

具体来说，分为三步：

让人类标注员在ChatGPT生成的代码中故意植入一些微妙的bug。

标注员扮演代码审查员的角色，写下他们对这些bug的评论。

用这些数据来训练CriticGPT，让它学会如何发现和指出代码中的问题。

在训练过程中，他们还加入了一些有趣的环节。

例如，不断让标注员验证自己插入的bug是否足够隐蔽，能够骗过当前版本的CriticGPT。这样一来，CriticGPT就被迫不断进化，学会发现越来越隐蔽的问题。

这种方法有点像GAN的对抗训练，只不过生成器的角色由人类来扮演……

最后，OpenAI还采用了一种“强制采样束搜索”（FSBS）技术，使CriticGPT在生成评论时既能保持全面，又能减少“幻觉”和“鸡蛋里挑骨头”的现象。

具体来说，FSBS会强制模型生成多个不同的评论片段，用奖励模型对这些片段进行评分，最后根据评分和一个长度修正因子来选择最佳的评论组合。

通过调整长度修正因子，可以在评论的全面性和准确性之间找到最佳平衡点，既不会错过重要问题，又不会过度挑剔。

02 CriticGPT取得了哪些成果呢？

在发现人为插入的bug方面，人类审核员平均只能找到25%，而CriticGPT的成功率高达75%以上。

在评估自然出现的Bug时，有63%的情况下人类更倾向于选择CriticGPT的评论而非人类评论。

CriticGPT的评论被认为比ChatGPT的更全面，更少出现“幻觉”和无关紧要的挑剔。

在评估非代码任务时，成功识别出数百个在ChatGPT训练数据中被人类认为是“完美”的错误。

不过CriticGPT也不是十全十美，它也会有“幻觉”问题，指出一些实际上不存在的问题。

目前，人类和CriticGPT组队工作效果最好：既能发现大部分问题，又能避免AI的“幻觉”。

03 RLHF的上限不再是人类

RLHF是创造ChatGPT的核心技术之一，但其局限在于人类能力就是RLHF的天花板。

当需要AI解决人类无法应对的任务时，人类无法提供相应的反馈，AI也就无法改进。

CriticGPT的成功，意味着超级对齐团队设想中的可扩展监督，即用弱模型监督训练更强模型的愿景，终于有了实现的希望。

为什么选择从代码任务入手呢？

一方面，代码任务具有现实意义，开发出的模型可以直接应用。

另一方面，代码可以清晰明确地评估，比开放式对话更客观，更容易判断CriticGPT发现的问题是否真实和重要。

结果表明，虽然CriticGPT在代码上训练，但不仅能挑出代码中的Bug，还发现了1/4的ChatGPT生产数据中的问题。

如何使用WildCard正确方式打开GPT-4o，目前 WildCard 支持的服务非常齐全，可以说是应有尽有！

官网有更详细介绍：WildCard

推荐阅读：

ChatGPT之母：AI自动化将取代人类，创意性工作或将消失

超越GPT-4o！新王Claude 3.5 Sonnet来啦！

GPT-4o首次引入！全新图像自动评估基准发布！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mfbz.cn/a/753162.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

golang生成RSA公钥和密钥

golang生成RSA公钥和密钥

目录场景场景一：加密、解密场景二：微信退款场景三：SSL证书为什么是.key和.pem格式的文件生成密钥、公钥密钥、公钥保存到文件中第一个：保存密钥到文件里第二个：保存公钥到文件里场景场景一&#…

阅读更多...

ForkJoinPool浅析

ForkJoinPool浅析

一，概述相比传统的线程池ExecuteService，ForkJoinPool的优势在于能采用分治算法、工作窃取算法高效利用CPU资源，如下图 Fork即拆分，Join即合并，通过将大任务拆分成多个小任务，在多个线程中执行后，合并结果即可得到大任务的结果，经典的例子有归并排序、超大数组求和…

阅读更多...

如何保护应用？可快速部署的WAF服务器分享

如何保护应用？可快速部署的WAF服务器分享

Web应用攻击是安全事件和数据泄露的主要原因。相关统计表明，超过四分之三的网络犯罪直指应用及其漏洞。为保护数量日益增长的应用安全，Web应用防火墙(WAF)因此而生。本文则聚焦于WAF服务器，了解它的性能与具体的实践应用。　新加坡网络安全…

阅读更多...

Linux应急响应靶机 2

Linux应急响应靶机 2

一、靶机介绍应急响应靶机-Linux2 前景需要：看监控的时候发现webshell告警，领导让你上机检查你可以救救安服仔吗！！ 1,提交攻击者IP 2,提交攻击者修改的管理员密码(明文) 3,提交第一次Webshell的连接URL(http://xxx.xxx.xxx.…

阅读更多...

变“回锅肉”专场的《歌手2024》，是不是高开低走了？

变“回锅肉”专场的《歌手2024》，是不是高开低走了？

《歌手2024》播出已经过半，似乎出现了高开低走的不妙趋势。 6月26日，《歌手》节目组官宣第八期节目的补位歌手为谭维维，曾主动“请战”的她再次回到了《歌手》舞台，实力歌手加入节目按理说是件好事，却意外并未受到观众…

阅读更多...

每天写java到期末考试--复习集合与泛型--6.28

每天写java到期末考试--复习集合与泛型--6.28

1、定义一个Student类,具有name、sex、age属性,具有getName、setName、getSex、setSex、 getAge、setAge方法和三个参数的构造方法 2、编写一个类,名字为ListDemo,在main方法中做以下工作: 定义一个可以保存Student类型对象的List类型对象list1,然后向list1中放入2个学生:new S…

阅读更多...

Web渗透：php反序列化漏洞

Web渗透：php反序列化漏洞

反序列化漏洞（Deserialization Vulnerability）是一种在应用程序处理数据的过程中，因不安全的反序列化操作引发的安全漏洞；反序列化是指将序列化的数据（通常是字节流或字符串）转换回对象的过程，如…

阅读更多...

松下的台灯值得入手吗？书客、飞利浦真实横评大分享！

松下的台灯值得入手吗？书客、飞利浦真实横评大分享！

我们都知道，无论是学习还是工作，都需要一个良好的照明环境，而台灯就是我们日常生活中非常重要的照明工具。它不仅能够提供额外的光线，还能减少眼睛疲劳，提高我们的工作和学习效率。所以，选购一款合适的台…

阅读更多...

240622_昇思学习打卡-Day4-ResNet50迁移学习

240622_昇思学习打卡-Day4-ResNet50迁移学习

240622_昇思学习打卡-Day4-ResNet50迁移学习我们对事物的认知都是一点一点积累出来的，往往借助已经认识过的东西，可以更好地理解和认识新的有关联的东西。比如一个人会骑自行车，我们让他去骑摩托车他也很快就能学会，比如已经学会…

阅读更多...

电脑提醒事项怎么显示在桌面

电脑提醒事项怎么显示在桌面

在繁忙的工作节奏中，我们经常会面临多项任务同时进行的情况。为了确保不遗漏任何重要事务，设置电脑提醒事项就显得尤为重要。想象一下，当你正忙于一个项目时，电脑屏幕突然弹出一个提醒，告诉你接下来的会议时间&#xf…

阅读更多...

梦想CAD二次开发

梦想CAD二次开发

1.mxdraw简介 mxdraw是一个HTML5 Canvas JavaScript框架，它在THREE.js的基础上扩展开发，为用户提供了一套在前端绘图更为方便，快捷，高效率的解决方案，mxdraw的实质为一个前端二维绘图平台。你可以使用mxdraw在画布上绘…

阅读更多...

实力认可！安全狗受聘成为福建省网信系统2024年度网络安全技术支撑单位

实力认可！安全狗受聘成为福建省网信系统2024年度网络安全技术支撑单位

6月6日，福建省委网信办组织召开福建省网信系统2024年度网络安全技术支撑单位座谈会。作为国内云原生安全领导厂商，安全狗也受邀出席此次活动。省委宣传部副部长、省委网信办主任、省互联网信息办公室主任张远出席会议并颁发支撑单位证书。安全狗凭借出…

阅读更多...

如何用Vue3和Plotly.js绘制动态3D图表？

如何用Vue3和Plotly.js绘制动态3D图表？

本文由ScriptEcho平台提供技术支持项目地址：传送门 Plotly.js: 使用Vue.js动态加载数据并绘制图表应用场景在数据可视化应用中，需要将数据动态加载到图表中并进行实时更新。本文将展示如何使用Plotly.js和Vue.js实现这一功能，从加载外…

阅读更多...

java基于ssm+jsp 电子商城系统

java基于ssm+jsp 电子商城系统

1管理员功能模块管理员登录，通过填写用户名、密码进行登录，如图1所示。图1管理员登录界面图管理员登录进入电子商城系统可以查看个人中心、用户管理、医生管理、药品信息管理、线上诊疗管理、医生信息管理、管理员管理、论坛管理、系统管理、订单管…

阅读更多...

snowflake 不再是个数据仓库公司了

snowflake 不再是个数据仓库公司了

标题先上结论，为啥这么认为，且听接下来道来。 snowflake 非常成功，开创了云数仓先河，至今在数仓架构上也是相对比较先进的，国内一堆模仿的公司，传统上我们会认为 snowflake 肯定是一家数据仓库公司。不过最…

阅读更多...

智能工业网络，需要何种工业以太网交换机作为支撑？

智能工业网络，需要何种工业以太网交换机作为支撑？

随着工业企业数字化及信息化的进一步深化升级，工业领域相关控制及信息系统的业务类型不断增加、复杂性不断提升，工业控制网络与工业信息网络也呈现融合趋势，具备支持多业务、多协议、多厂商设备和数据的互联互通、共网承载以及高质量传输能力…

阅读更多...

vue-router的学习

vue-router的学习

vue-router 基于Vue做单页面应用时，vue-router可以帮我们将url地址和组件绑定，在我们切换路由组件时，url改变，页面无需从服务端重新加载，即不用刷新，打个比方，我们用美团外卖点外卖时&#xff…

阅读更多...

一文带你彻底搞懂设计模式之单例模式！！由浅入深，图文并茂，超超超详细的单例模式讲解！！

一文带你彻底搞懂设计模式之单例模式！！由浅入深，图文并茂，超超超详细的单例模式讲解！！

一文带你彻底搞懂设计模式之单例模式！ 一、什么是单例模式？单例模式分类饿汉式创建单例对象懒汉式创建单例对象多问一个为什么？ 二、为什么要有单例模式？使用单例模式的原因单例模式的应用场景三、多线程下的单例模式饿汉式懒汉…

阅读更多...

【高级篇】InnoDB引擎深入：核心机制与实战优化（十五）

【高级篇】InnoDB引擎深入：核心机制与实战优化（十五）

引言在探索了MySQL集群与分布式技术之后，我们进入了数据库引擎的核心地带——InnoDB。作为MySQL的默认存储引擎，InnoDB凭借其对事务的支持、行级锁定、高效的恢复机制以及复杂的内存管理，成为众多应用场景的首选。本章，我们将深入InnoDB的内部机制，透彻理解锁管理、事务…

阅读更多...

【C++】动态内存管理new和delete

【C++】动态内存管理new和delete

文章目录一、C的内存管理方式二、new和delete的用法1.操作内置类型2.操作自定义内置类型三、new和delete的底层实现1.operator new和operator delete函数2.new和delete的实现原理四、定位new表达式五、malloc/free和new/delete的区别一、C的内存管理方式之前在C语言的动态…

阅读更多...

最新文章