ChatGPT怎么用?GPT-4官网注册、中文使用一次读懂
ChatGPT PLUS重新开放注册收费!到底怎么用?PLUS付费版为ChatGPT 4 ,比起免费版差异在哪?中文使用有哪些诀窍?GPT 5也快出现,传闻有哪些厉害应用?
ChatGPT账号自动发货商店
在Google热搜榜上攻占年度第二、全球每周活跃用户突破1亿,在生活中和工作里怎么用好ChatGPT,早就是2023年白领上班族的必备知识。如此进步速度飞猛的生成式AI工具,该怎么掌握?其实现在才开始学,还来得及,更有大师免费线上课程,可让你一次搞通指令。各国企业与个人,陆续有使用者分享经验。到底它有多神?如何入门上手?以下请见全解析。
ChatGPT是什么?
OpenAI是一家专注于发展人工智慧的企业,最终目标是创造出能够造福全人类的通用人工智慧(artificial general intelligence,简称为AGI)。ChatGPT就是他们为了达成愿景,开发出的重要产品之一。它主要透过网页介面提供服务,背后运行的是强大的GPT模型,目前付费用户对话的ChatGPT背后为GPT-4,免费用户使用的版本则是GPT-3.5。
2023年11月因为ChatGPT Plus的使用量太高,OpenAI一度暂停用户新提出的付费订阅需求,以免公司无法负荷量能,好消息是到了2023年12月,OpenAI再度重新开放注册,对GPT3.5生成内容品质不够满意的使用者,又可以付费加入GPT-4的行列。
自从2020年推出具有里程碑意义的GPT-3以来,OpenAI持续在大型语言模型的开发上取得显著进展。2023年,他们正式推出更加先进的GPT-4,这个版本的模型在多项测试中展现出惊人的能力,比如在美国律师考试中取得高分,以及流畅回答奥林匹亚竞赛和美国大学先修课程的试题,丝毫没有迟滞之感。
ChatGPT的训练方法与OpenAI此前开发的「打电动机器人」OpenAI Five相似,都采用了基于人类回馈的增强学习(reinforcement learning)技术。这种训练方法可以类比于孩童在玩电子游戏时的学习过程:即使没有成人的直接指导,孩子们也能透过不断的尝试和错误,从每次游戏中获得的正面和负面回馈中学习,逐步找出解决问题的策略,并将之内化。
训练ChatGPT时,便是仿照上述概念。OpenAI先请模型训练者,同时扮演使用者和人工智慧助手(即现在的ChatGPT)角色,创造一定数量的数据,让机器认识到对话的基本策略。接着,为了让机器认知到什么是「比较好的」对话内容与模式,训练者会扮演使用者,向机器担任的人工智慧助手发话,此时训练者会提供建议帮助机器撰写回答。
为了让机器「学习」,训练者会撷取机器撰写的不同语句,接着「告诉」机器回答内容的品质高低。这些线索有如「小朋友齐打交」的正向与负向回馈,机器可以借此改善产出,并回头更新其产生回答的策略,就这样一步一步的离成品迈进。
训练ChatGPT的过程有如小朋友玩电动一般,会透过外部回馈更新决策。当然,这背后有科学家的无数心血。
为什么ChatGPT那么厉害?
人们时常听到人工智慧,虽然企业早已广泛采用,无论金融、行销、供应链等各类产业都有早应用,但因为生活中无法直接企及,对于AI还是有点距离。
不过,2016、2017年,新创企业DeepMind打造的围棋人工智慧AlphaGo,接连击败围棋名宿李世乭与柯洁,让AI在世人心中留下难以磨灭的刻痕,原来复杂如围棋,机器也能超越人类,下一个领域又会是什么?
然而,下棋仍属用途相对狭隘的弱人工智慧(weak AI),相较于在围棋界独孤求败的AlphaGo,这次ChatGPT开放给众人使用,它的应用场域显得贴近生活,离泛用、接近人类的强人工智慧(strong AI)更进一步。
不过,ChatGPT仍属于弱人工智慧的范畴,它的设计目标是模仿人类对话,背后运作原理实际上仍与人类逻辑推理不同。
如同「深度学习之父」杨立昆(Yann LeCun)在6月的一场演讲所说,人类在演讲前会先规划大纲,以此为骨架,搭建出每个段落中要传递的论点,这个做法背后,有着逻辑与推理支撑。然而,ChatGPT背后的GPT模型,并不是走「先计画再行动」的路数,而是从预先训练好的资料中,找寻与前后文一起出现机率高的素材,多番拼凑后产生完整句子。
但是,对一般人来说,机器能够如此流利和人们谈天说地,就已经足够惊人。
ChatGPT的优异表现,很大部分要归功于它所站立于上的巨人肩膀,也就是GPT模型。2018年,OpenAI发表论文,主要在讨论利用所谓「生成式预训练(generative pre-training,简称为GPT)」,改善模型对于语言的理解,此方法成功克服当时机器学习研究者的痛点。
对投身人工智慧领域的产学界人士来说,即使技法再精妙、运算资源再丰沛,还是必须投注资源标注资料。以医疗领域为例,若想让机器学会判读医疗影像,借此和医生一样能够辨认疾病,在打造出分类(classification)模型之前,得让机器知道,每张照片对应到是有患病/没患病,或者阳姓/阴性,这个标签没办法无中生有,需要透过既有资料库,或者请人逐一标记资料。
然而,当既有资料数量不足,或是应用领域还很新的时候,一定要加入新资料以量取胜,才能让模型表现变得更好。可是,若想拜托医师花时间逐一标记影像,必然耗费巨大的人力成本。
不只是影像辨识,其他领域状况亦然。AI助手生成信件的文字品质够好吗?人工智慧替人资做的履历筛选建议会不会有遗珠?金融场景中盗刷和贷款违约预测的判定品质如何?这些都仰赖人类实际的回馈。
GPT厉害在它能够基于无监督(unsupervised,指没有标签)的数据,先建立起通用的语言模型,这解决了上述每换一个领域、便要重新标注资料的问题,接着OpenAI针对有监督(supervised ,指有标签)的特定任务逐步微调,如此一来,还能进一步提升模型表现。
ChatGPT有何突破?
当然,使用无监督的数据生成模型说来容易,原理上听起来也合情合理。但实务上的挑战甚巨,因为训练模型,仰赖运算能力,这意味着燃烧资本。
就第一代GPT模型来说,预训练的数据量达到约5GB,使用到的参数接近1.2亿。隔年(2019)OpenAI发表GPT-2,预训练的数据量暴涨,直接冲高到40GB,使用到的参数更是来到15亿。OpenAI并没有停下脚步,在2020年又释出了GPT-3,这次的数据量翻了千倍,达到45TB,而参数量也升级到1,750亿。
隔了3年,OpenAI在今年(2023)3月发表GPT-4,但没有公布模型架构、参数细节、训练过程,因此遭到外界抨击,因为OpenAI的成果受益于其他研究机构和企业的开源,包含谷歌、脸书、学术团体等。杨立昆便直言,OpenAI从专注于研究(research)的实验室,转变为开发产品(product)、替微软服务的单位,其保密做法更无法让世界上其他企业能够一起进步。
针对不愿开源的指控,OpenAI曾回应,它们担心开放模型让人使用,会有滥用风险,才会采取开放API的方式,让潜在损害停留在可控范围。当然,反对者无法接受此一说法,认为OpenAI连训练过程、使用资料、参数大小都没公布,这无疑是避重就轻的回答。
另外,不看模型的参数数量,改看ChatGPT对话长度的token数,这个数字能够反映出ChatGPT对话的上限,若超过此限制,它会忘记交谈内容、失去脉络。
GPT-4出现后,系统能够接受的token数量从4000跃升到了3万2000,足足有八倍之多,这将大幅提升应用上的可能性,无论是客服机器人,或是文字摘要,都将变得更为容易;不过,现在OpenAI仅开放8000多个token的版本供人使用。
OpenAI没有公布训练GPT模型所投入的资金。但就深度学习企业Lambda Labs的首席科学家推测,若是利用最便宜的云端运算服务训练GPT-3模型,需要花上至少460万美元、耗时355年才能训练完成,因此OpenAI才会选择和微软合作,取用微软算力,微软则得到OpenAI授权使用模型,并将之整合到自家旗下产品中,可谓双赢。
为什么ChatGPT那么红?
ChatGPT席卷世界,但它绝不是第一项AI产品,也不是第一项面向大众的AI产品。企业喊AI应用已有很长时间,数位工具开发者也陆续在软体内加入人工智慧功能,但只有ChatGPT掳获人心。
探究ChatGPT能够取得高人气的背后原因,关键首先在于ChatGPT足够贴近日常。与先前学术领域和商业领域的AI应用相比,想要使用ChatGPT,只要造访网站就好,不用什么技术门槛,就跟你我在对话一样。
Google DeepMind执行长哈萨比斯(Demis Hassabis)认为,「语言是人类智能和每日生活的核心,」这也是ChatGPT成功的关键。因为技术进步,改善了生成内容的品质,ChatGPT生成的内容已经不再是蹩脚、一眼就能看穿的机器人生成文字,乍看之下颇有思想、回答内容又已足够拿来使用。
这些原因,让ChatGPT获选《Nature》的「年度10大人物」榜单,名列第11位,与其他过去一年充分发挥影响力的真人并列,如推动印度登月的科学家、巴西环境部长还有OpenAI的首席科学家等。虽然ChatGPT不是人,但考虑到它对世界带来的变化,《Nature》决定表彰这个产品与背后技术的影向力。
ChatGPT对手比较:Bard,Claude,Bing,文心一言
整理现在ChatGPT相似产品的竞争态势,市场上至少有这几间玩家:
订阅远见电子报,掌握国内外大事订阅
产品名称 | 所属企业 | 底层模型 | 备注 |
ChatGPT | OpenAI | GPT-3.5/GPT-4 | 微软投资 |
Bard | 谷歌 | PaLM2/Gemini | 近期公开Gemini模型 |
Claude.ai | Anthropic | Claude/Claude2 | Amazon、Google投资 |
Bing | 微软 | GPT-4 | 内建于搜寻引擎中 |
Grok | xAI | Grok-1 | 马斯克创立 |
文心一言 | 百度 | 文心Ernie | |
通义千问 | 阿里巴巴 | 通义Tongyi | |
豆包 | 字节跳动 | 云雀Yunque | 近期传出调用OpenAI模型争议 |
资料整理:远见曾子轩
注:上表未列入仅提供API服务让开发者使用、但没有提面向消费者产品的大语言模型与企业,如小米投资、推出百川大模型的百川智能、推出盘古大模型的华为等
付费企业版AI差异:微软Copilot,ChatGPT企业版,Google Duet AI,Amazon Q
若改看提供给企业内部使用的ChatGPT Enterprise与微软Copilot,初步有这些竞争对手:
产品名称 | 所属企业 | 底层模型 | 月费 |
Copilot | 微软 | GPT-3.5/GPT-4 | 30美元/月 |
Duet AI | 谷歌 | PaLM 2/Gemini | 30美元/月 |
Amazon Q | Amazon | 未公布* | 20美元/月 |
ChatGPT Enterprise | OpenAI | GPT-3.5/GPT-4 | 视企业而定 |
根据AWS表示,Amazon Q背后的基础模型(foundation model)并非先前发表的Titan模型,另有未公布的模型。
GPT-5何时会公布?有任何更新吗?
2023年11月,OpenAI上演一出堪比Netflix影集的人事变动大戏,关键就在于首席科学家萨斯凯博(Ilya Sutskever)对于公司发展AI的速度过快,对AI安全性与公共福祉的担忧不够,因此参与董事会撤换执行长奥特曼(Sam Altman)的突袭。
随着奥特曼回锅,这起内斗宣告落幕,外界逐渐将焦点从路线之争,转移到GPT模型的最新版本-我们将迎来GPT-5了吗?
整理目前已知资讯,可以确定OpenAI目前正在开发GPT-5,但没有进一步资讯。11月接受《Financial Times》访问时,奥特曼明确表示GPT-5处于开发的早期阶段,但他并没有分享具体的开发时程,所以还无法知道进度。另外,OpenAI在7月时申请GPT-5的商标,应用包含利用AI语音转文字以及语音识别等软体。
奥特曼提到,预期GPT-T的性能会更优于前几代的GPT模型,但现在难以预测GPT-5可能会有什么样的新能力,因此他无法具体说明。
GPT模型训练时会用到庞大的资料,研究人员在训练前几代模型时,已经大量从网络上爬取内容,如果GPT-5没有拓展出新的设计架构,仍旧是从提升资料量的角度,持续追求缩放定律(scaling laws),则搜集资料将会是OpenAI的一大挑战。事实上,奥特曼就说,GPT-5除了利用网络上公开资料以外,也会向企业购买资料,他也呼吁使用其他先前较少人使用、包含对话与长篇写作的资料集。
此外,OpenAI先前曾多次表示非常重视公司产品的安全性,即便GPT-5有望在短时间内训练完毕,仍要等上一定时间,让OpenAI的研究人员测试,因此短期内,我们恐怕还看不到GPT-5的问世了。
GPT-4与GPT-3.5相比,有何升级?
自从ChatGPT首次亮相以来,它的表现便惊艳了众多用户。随后,OpenAI推出以GPT-4驱动的ChatGPT,回覆时间很短、回覆品质更好,回答问题时减少幻觉的出现,加入更多道德考量,同时也增加客制化的程度。
对比GPT-3.5,虽然GPT-4的训练方式与原则相同,所以在功能上还是有些限制,例如无法百分之百避免生成的内容有误,也可能会遇上逻辑推理谬误,使用者也能「恶搞」 ,像是蓄意提供错误讯息给ChatGPT,但在处理涉及安全或者敏感问题时,GPT-4相较于前代有显著进步,尤其在处理制造武器、寻求医疗建议或可能造成伤害的问题上,GPT -4都展现比GPT-3.5更好的判断能力,不像GPT-3.5时期的ChatGPT那么频繁出错。
OpenAI指出,若只是随意聊天,GPT-4与之前的版本相比并无太大区别,当任务变得复杂时,GPT-4的能力就显得尤为突出。在回答国际奥林匹亚竞赛(Olympiad,国际解题竞赛,各国会派出优秀学生参与)和美国高等学校先修课程(AP,Advanced Placement)的题目时,GPT-4模型的表现大幅胜过GPT3.5。
在统一律师资格考(Uniform Bar Exam)中,GPT-3.5的PR值仅为10,GPT-4则惊人地达到了90。而在法学院入学考试(LSAT)中,GPT-4同样表现出色,PR值达到了88,相比之下GPT-3.5的PR值为40,即使是处理非英语语言,GPT-4的表现也赢过GPT3.5、DeepMind的龙猫大语言模型(Chinchilla)以及Google的PaLM模型。另外,美国一位身兼医生与电脑科学家身份的柯汉(Isaac Kohane)实测发现,GPT-4驱动的ChatGPT在美国医学资格考试的题目中答对率超过90%,甚至能够诊断出罕见疾病。
除了成绩进步以外,OpenAI提升了GPT-4的可控制性(steerability)。我们平常使用的ChatGPT,说起话来温文儒雅、客气万分,如今只要使用者先描述想要使用的ChatGPT风格,便能够和「换装」后的ChatGPT对话,例如苏格拉底式的ChatGPT,就注重引导、不会直接给学生答案。可以想像,这对于教育领域来说,尤其具有革命性意义。
OpenAI请GPT-4模型以苏格拉底风格教学,绝对不能给学生答案;相反地,还要不断提出好问题帮助学生思考。ChatGPT果真循循善诱,以提问代替直接回答。取自OpenAI官网
GPT-4能够看图说故事?
过往版本的GPT模型,只能接受文字输入(text input)。对比之下,现在的ChatGPT已经支持多模态(multimodality),对话时可以灵活运用文字、声音与图像,不过,这只限于付费版用户使用。
现在的ChatGPT已经支持多模态(multimodality),对话时可以灵活运用文字、声音与图像。
若有订阅ChatGPT Plus,那你便能够在对话时直接上传照片,ChatGPT具备解读影像的能力,无论是学生常见的看图写作文、根据图表解释情况,或者是生活中可能用到的相片命名分类,还有工作会用到的图像素材贴标,这些都难不倒GPT-4模型。
其实,先前OpenAI就已经发表过相关技术,即同属多模态预训练模型的CLIP(Contrastive Language-Image Pre-Training),此技术可以分辨图片之间差异,就算没有预先标记好的文字标签,使用者也可以以文字搜寻想要的相片,等同整合文字和图像两种资料类型。OpenAI旗下与Midjourney对标的DALLE,同样运用CLIP的技术。
OpenAI请GPT-4模型解释上图的不寻常之处,模型指出有个人在移动中的计程车后方架子上烫衣服。取自OpenAI官网
就实用性来说,出国旅游或者欣赏外国影片与照片时,时常会遇到看不懂外文,却又好想知道的情境,这时候,就可以派出ChatGPT解读。不过,千万不能忘记ChatGPT很有可能会胡说八道,例如在翻译图片中的外语时,他就出现翻译完全错误的问题。
ChatGPT展现幻觉,每段翻译都在胡说八道。
对比之下,Google Bard的翻译精准且优雅,如实呈现资讯。
让GPT-4更强大的多模态模型是什么?
GPT-4之能学会看图说故事,符合OpenAI的开发方向:打造出多模态(Multimodal)模型。什么是多模态?听见悠扬乐声、欣赏生动影片、触碰柔软玩偶,这些人类理解世界的方式,都是不同的「模态」。
现在GPT-4先从文字开始,接着进展到图像,同时也能用声音互动。因为OpenAI在音乐生成领域耕耘甚久;若进一步从二维平面上升到三维,例如触觉或者嗅觉,逐步发展下去,当未来的GPT模型能够「读懂」不同型态的资料后,它能够完成的任务将会更加复杂且多元,介入人类生活的空间越来越大。
《麻省理工科技评论》就曾针对多模态模型为文指出,过往人工智慧应用的最大问题在于,它们能够成为击败人类的超级专才,例如对弈、玩游戏,但无法延伸扩充到其他任务。研究人员当然想要克服这个瓶颈,其中一个可能的解法,是向小朋友取经。
孩子们是如何成长、变得更加聪明的?他们是从感知这个世界,并开口讲话开始,就像《百年孤寂》里的那句话:「世界太新,很多东西还没有名字,必须用手去指。」小朋友们会透过眼睛观察、以耳朵倾听、靠着鼻子嗅闻,并且用双手触摸,接着再将所有的感官经验,组织成文字,尝试描述它。
当孩子的体验更多、能够形之于语言的内容更多,代表他们更能够形成对于世界的认知。若人工智慧系统也能够如此,可以预期,它们将能适应更多复杂的人类环境、解决不同类型的问题,若是技术成熟的那一天,它们恐怕将不再只是人类的虚拟助手,而会成为人类的实体秘书。
谷歌大脑(Google Brain)专攻深度学习的研究总监艾克(Douglas Eck)就曾表示,多模态人工智慧模型将会带来最新的突破;DeepMind的研究总监哈德席(Raia Hadsell)也对多模态模型感到兴奋,他更大胆预言,未来我们可能见到人工智慧模型能够自由探索、拥有自主权、跟环境互动。
当然,GPT-4现在仅具备读懂图像和文字的能力,另外,它输出的内容也只有文字,但OpenAI早就有影像生成的服务,是否要将其整合到GPT-4的新版模型中,只是OpenAI策略上的决定,要做与不做而已。
Comments on 'ChatGPT怎么用?GPT-4官网注册、中文使用一次读懂' (0)
评论 Feed