咨询电话:17359299796
手机:17359299796

— 新闻中心 —

联系我们/ CONTACT US
全国免费客服电话 17359299796
漳州风云电气

邮箱:A3669372910@163.com

手机:17359299796

电话:17359299796

地址:福建省漳州市龙文区朝阳北路1号办公楼205室

行业动态

“百模大战”诞生各种编程工具 GPT-4依然是天花板

发布时间:2024-01-08 15:13:58 人气:

20 世纪 60 年代末出现的“软件危机”揭示了软件开发中的诸多问题,也是在此时,软件工程概念正式诞生。此后,软件工程的发展经历了多个阶段。自去年 ChatGPT 带火大语言模型热潮后,软件工程的发展迎来了里程碑式的新跨越:大模型增强了自然语言处理能力,使得人机交互更直观,并以协同者的形式参与到软件开发的整个周期中,推动了编码任务的自动化,加快了开发周期和提升软件产品的质量。


如今,大模型已经可以在软件开发的多个环节(如功能设计、代码开发、测试)中发挥作用,未来,大模型的能力边界还将继续扩大。越来越多的开发者担心自己在某一天会被 AI 所取代,甚至有人用“OpenAI 杀死了开发者”来形容当下的困局。一些技术专家也给出了悲观的预测:



Fixie 联合创始人兼 CEO、前谷歌 Chrome 移动团队工程总监 Matt Welsh:“程序员这个工作或许在三五年内不复存在,甚至编程这个学科都会被终结。”


Stability AI 创始人兼 CEO Emad Mostaque:“五年内,人类程序员将彻底消失。”


马斯克:“有一天,人们将告别艰苦的工作,人工智能将接管大部分任务。”


……


以大模型为代表的 AI 技术在过去一年以超乎想象的速度进化,不断重塑我们的生活和工作方式。回溯大模型技术在软件开发领域落地应用这一年,究竟带来了哪些改变?开发者如何应对大模型带来的冲击?在大模型的驱动下,软件开发又将走向怎样的未来?


大模型已经成为 软件工程变革的最大推动力 大模型浪潮下,编码助手走向自动化


早在 2020 年,大模型就已经在技术领域得到应用,但在当时,大模型还局限在自然语言中。随着 2022 年 11 月底 ChatGPT 的发布,以及 GPT-4、LLaMA 等大模型相继亮相,大模型早已超越了自然语言范畴,发展到了编程语言。


汇量科技 Mobvista 技术 VP 兼首席架构师蔡超认为,2023 年 AI 领域的大事件除了包括 GPT-4、LLaMA、Falcon 等大模型的发布,以 Copilot 形式为代表的大模型技术在不同领域的应用同样值得关注,如 Microsoft 365 Copilot、GitHub Copilot 等等,这些 Copilot 让 AI 真正成为了一个人类的虚拟助手或员工,并深刻地改变很多行业的工作模式。


与传统的机器学习方案相比,这波大模型浪潮在编码助手领域的明显趋势是性能获得显著提升、且构建门槛大幅降低:基于大模型的自动编码能力可以遵循设计指令,通过简单的自然语言交互生成高质量代码和程序。同时,项目研发过程中形成的数据、经验和业务需求也可以被大模型掌握并转化为通用的软件工程能力,进而取代更多的流程和工具,解决复杂的开发难点和团队协作问题。


腾讯机器学习平台技术总监、算法负责人康战辉认为,大模型浪潮的兴起推动了 AI 编码助手迈向自动化,并存在以下三大发展趋势:


第一,过去的 AI 编码助手主要应用于软件工程领域。但如今,所有通用的大模型都具备编码功能,这是该领域的一项明显变革。


第二,尽管过去存在诸如启发式规则和深度学习等方法,但现今的 AI 编码助手展现出了更高的智能化水平。它们不仅处理代码辅助输入和续写,还能通过自然语言与人类交互,这一特点尤为强大。


第三,大家过去常谈及低代码或无代码的趋势,主要通过拖拽和积木式工具实现。而今,借助 AI 编码助手,开发人员和技术人员只需用自然语言清晰地描述想法,便能轻松实现低代码、无代码开发。这意味着低代码、无代码的概念已发生变化。


2023 年,大模型正加速进化。最新发布的 GPT-4 显著提升了代码能力,也让大家看到了其在多个公开代码测试集上的出色表现。同时,LLaMA 等开源大模型也加速了 AI 编码助手在业界的应用,不少企业基于开源大模型进行领域增训,代码版本表现卓越。


“现如今,许多公司可以基于开源的代码模型构建自己的 Copilot,进一步加速 AI 代码助手的实际应用。这不仅在闭源和开源领域产生了积极影响,还促使更多公司开发自己的代码助手。随着 Copilot 概念的普及,各公司正采取多种方式提升效能,深入整个研发链路。这可能标志着 AI 编码助手领域的一个重要趋势变化。”康战辉提到,更加值得思考的是,代码在从大模型中获取大量世界知识和逻辑知识的同时,也在反哺大模型。


通用大语言模型其逻辑能力的提升在很大程度上得益于代码续写。代码作为一种类似于自然语言的表达方式,为模型提供了丰富的逻辑训练数据。由于很多代码是用英语编写的,其中的保留词与英语非常相似,这种以自然语言为基础的代码符号实际上表达了一种人类的逻辑。因此,代码续写和大语言模型之间存在着相辅相成的关系。通过代码续写,大语言模型能够更好地理解和表达人类的逻辑,从而提升其逻辑推理能力。同时,大语言模型的发展也为代码续写提供了更强大的工具和平台,使得代码续写更加高效和准确。


这种相辅相成的关系不仅有助于提升大语言模型的逻辑能力,还能够促进代码续写的进一步发展。未来,随着技术的不断进步和应用场景的不断扩大,代码续写和大语言模型将会在更多领域发挥其巨大的潜力。


思码逸创始人兼 CEO 任晶磊认为,从长期来看,大模型已经成为软件工程变革的最大推动力,并有望为软件开发团队提供新的人工智力资源和更高效的协作方式。但短期内,大模型的基础能力未必能够达到人们想象中的美好愿望。“所以我们在 2023 年也看到了 GPT 编程的‘冷热’交替。人们对大模型的认知被推上‘愚昧之巅’,又走向‘绝望之谷’——亲历种种跌宕起伏,我们的心态也受到很多冲击。”


大模型时代下的编码工具及背后技术


不少受访专家提到,在大模型技术的加持下,编码工具能力边界得到了进一步拓展。


过去的编码工具主要依赖于语法树和部分统计机器学习技术,应用场景主要是针对函数级的续写,例如在编写代码时,可以快速地利用某个代码库中的公共功能,但通常只能理解某个函数或 API 上下文,然后生成相关代码片段,存在一定的局限性。


据网易杭州研究院人工智能专家、AI 算法团队负责人刘东介绍,目前 IT 行业主要存在两大类经过大模型改造过的工具:面向专业程序员,主要是专注于编程开发环节的编码助手工具产品,包括代码补全、函数生成、代码纠错、Chat 咨询开发相关问题,以及简单的测试用例生成,典型工具如在 JetBrains、VSCode 等主流 IDE 中提供智能编程助手插件等。面向数据消费人员,尤其是业务、产品、运营等非技术人员,过去主要是 GUI 形式的 BI 工具,涉及维度、指标等概念的理解,门槛比较高、操作复杂。目前已有基于大模型的对话式 BI 产品,如有数 ChatBI 等,能够降低非技术人员取数门槛、提升数据分析效率。


虽然当前主流的 AI 编码工具与传统编码工具存在相似性——都是在主流 IDE 中作为插件产品提供给开发者,但其背后的技术方案却存在显著的差异:在 AIGC 时代,主要的算法技术方案是大模型和检索增强。背后具体又涉及到几个关键技术,如以自然语言为代表的深度学习技术、强化学习技术等。此外,代码模型需要处理大量的代码数据,同时还需要通用数据来学习背后的逻辑和知识,因此大模型技术还包括大数据处理能力,特别是处理代码的能力。


“目前在 AIGC 编程工具中,代码领域大模型、项目代码等检索增强技术必不可少,对实际编程体验都有显著影响。代码大模型是让编程工具更聚焦到编程领域,检索增强技术更能有效利用企业项目代码或个人代码仓库、以实现个性化实时信息增强。”网易数帆人工智能产品线总经理胡光龙总结道。


代码模型开发有哪些关键点?


随着大模型热潮持续升温,越来越多的国内外科技公司参与其中,押注 AI 大模型及相关 AI 应用。其中,国内的 AI 大模型包括百度“文心一言”、阿里云“通义千问”、腾讯“混元”、华为“盘古”、网易“玉言”、抖音“云雀”、智谱 AI“ChatGLM”、中科院“紫东太初”、百川智能“百川”、浪潮信息“源”、商汤“日日新”、科大讯飞“星火”等等。值得一提的是,不少大模型都具备编程能力,大模型通过学习大量的代码样本,可以理解和生成代码,甚至可以完成代码修复和自动编程等任务。


浪潮信息人工智能软件研发总监吴韶华认为,大模型通常在语言相关任务上表现出色,在逻辑和计算方面相对较弱。但从 GPT-4 开始,编程能力逐渐受到开发者的重视,并成为评估大模型能力的重要标准。尽管编程能力不一定是大模型的“基本”能力,但当前许多大模型确实具备了一定的编程能力。对于大模型来说,提升编程能力的关键在于建立代码更改与人类指令之间的联系。通过层次化的自然语言将算法任务分解,逐步引导模型完成代码生成。 这种方法对训练数据的质量要求极高。为了实现这一目标,开发者需要精心选择和准备高质量的训练数据,以确保模型能够从中学习到有用的知识和技能。此外,还要不断优化模型的架构和训练过程,以提高模型的编程能力和泛化能力。


据康战辉介绍,在代码模型的开发中,有几个关键点不容忽视:


首先,高质量的代码数据是基础。这不仅涉及到数据的收集,更重要的是数据的清洗。由于编程语言的多样性,人工干预在代码清洗过程中是必要的,团队需要理解什么是高质量的代码,这涉及到代码的格式和实现质量。这就需要领域代码的专业人员来进行高质量的代码识别和清洗,他们能够识别出优秀的代码并进行整理。


其次,如果代码存在缺陷或错误,如何进行修正也是关键。这相当于为代码模型提供一些“老师”,以确保模型不仅能学习到数据,还能纠正错误。因此,高质量的数据标注对于模型的表现至关重要。这需要团队投入大量的时间和精力在数据清洗和修正上。


此外,安全性是另一个重要考虑因素。虽然底层代码可能是安全的,但如果涉及到与用户界面的交互,如 SQL 查询等,就可能存在 SQL 注入等安全风险,前端代码也可能存在漏洞。这需要团队对领域代码语言有深入理解,并关注安全性问题。因此,具备综合能力的人才在解决这些问题上将发挥关键作用。


“总的来说,代码模型的开发是一个多目标的过程,既要求对代码本身有深刻理解,又要求对安全性等方面有专业知识。这意味着需要各领域的专家,并且需要具备多方面技能的人来处理这些问题。”康战辉总结道。


除了基础大模型,2023 年也涌现出了很多软件开发垂直领域的专业模型,以及各种协助型 AI 编程工具。比如在低代码平台领域,网易数帆自研玉言 NL2NASL 领域大模型,将低代码平台升级为 CodeWave 智能开发平台,聚焦在以全栈低代码、智能大模型为基座打造的软件开发工具平台;思码逸基于 ChatGPT 开发了一款可以辅助研发效能提升的插件 DevChat,支持 VS Code 和 IntelliJ 多种主流 IDE,将大模型能力送到开发者手边。


刘东认为,大模型在落地应用方面有着巨大的想象空间,其中最重要的一个方向是利用自然语言进行人机交互(LUI),LUI 相比传统的命令行和 GUI 方式更为便捷和自然。在软件工程领域,大模型的应用目前仍处于探索阶段,“大模型在软件研发工作流中最大的价值是辅助人工提效。业界期望能够在软件工程全链路中使用大模型,包括项目管理、需求分析、编程开发、智能测试、部署运维等环节,期望能提升全链路效率,加速软件开发。”


AI 大模型在研发效能提升方面 具有独特的优势和潜力


那么,在软件开发的过程中应用大模型或其他 AI 技术,实际体验如何?真的可以提效吗?


分析公司 O'Reilly 日前发布的《2023 Generative AI in the Enterprise》报告指出,越来越多的开发者正积极在工作中应用 AI 技术:77% 受访者使用 AI 来辅助编程;54% 受访者预计,AI 的最大好处是提高生产力;66% 受访者预计,利用 AI 编程是未来开发人员“最需要的技能”;16% 从事 AI 工作的受访者表示正在使用开源模型。


相关推荐

在线客服
服务热线

服务热线

tel:17359299796

微信咨询
漳州风云电气
返回顶部
X漳州风云电气

截屏,微信识别二维码

微信号:17359299796

(点击微信号复制,添加好友)

  打开微信

微信号已复制,请打开微信添加咨询详情!