□ 徐凯 李燕 郭胜童
在当今人工智能技术迅猛发展的时代,产业大模型的应用已经渗透到各个领域,其中语料库在产业大模型应用中起到了关键作用。
虽然最近一年港航领域的大模型应用成果丰富,但语料库的建设还不尽如人意,需要提质提效,以促进港航业大模型高质量持续发展。
港航领域的大模型应用突飞猛进
最近一年,港航领域大模型落地案例频出,拥抱更多应用场景。
2023年6月,西井科技发布了集装箱物流供应链大模型TerminalGPT,它能够通过自主学习优化港口运营,提高作业效率和安全性;未斯科技推出了56GPT人工智能产品,这是专为货代公司设计的产品,可通过自然语言处理和深度学习模型提供一站式服务,提高了工作效率和员工满意度。
2023年10月,天津港集团联合多家企业启动了PortGPT的研发,覆盖了港口生产、物流服务等多个应用场景。天津港还创造了数字人助手“天天”,它在数据分析挖掘能力上已超越普通员工,能够提供实时的问题解决方案。
2023年11月,招商轮船开发了基于“商道”行业大模型的ShippingGPT,用于船舶管理、市场分析等多个领域,并通过“世界航商”APP向全球用户开放。
今年3月,山东港口日照港与百度合作开发大模型,专注于件杂货码头的自动化和智能化,通过智能化系统,日照港的运转效率、设备利用率、堆场周转率和利用率均有显著提升。就在同一个月,广州港南沙三期开展了基于大模型的港口GPT一站式服务平台的研究与应用,实现了服务全流程的智能化,并通过大模型技术提升了智能服务水平。
此外,港联航科技自主研发了港口大模型系统——PortGLM,建立了港口码头领域的垂直语料库,包括港口码头相关法律法规、基础知识与生产操作知识、事故案例分析、风险评估模型等。该系统能与港联航的“神谋”超级自动化iPaaS平台结合,配置港口数字员工,提高港口运营智能化水平。
作为全球领先的数字员工机器人公司,壹沓科技聚焦大供应链领域,推出了“运小沓”供应链数字员工超自动化平台,实现供应链业务的全局超自动化,包括营销、履约执行和财务结算等方面。同时,壹沓科技还推出了“运小沓·CubeAgent”,提供虚拟数字员工专家团队,助力企业提高人才密度和实现生产力变革。
值得一提的是,新加坡投资7000万元开发了东南亚首个大型语言模型生态系统,以满足多元文化和多语需求,并助力新加坡成为人工智能解决方案的全球领导者。
这些应用展示了大模型在港口航运领域的多样化用途,包括提高作业效率、优化资源分配、增强决策支持和提升客户服务水平等。随着技术的进步,大模型在港口航运领域的应用将更加广泛和深入。
港航垂直语料库需要体系化建设
港口航运垂直语料库的体系化建设对于航运领域的发展至关重要,应重视其建设和维护,以期为港口航运业的发展提供有力支持。
港口航运垂直语料库的建设需要全面考虑各类数据。这不仅包括传统的结构化数据,如统计数据和业务数据,还应涵盖非结构化数据和多模态数据。这些数据类型在航运领域的应用日益广泛,对于理解和分析港口运营状况、预测市场趋势以及优化物流流程至关重要。
上海国际航运研究中心正在受上港集团、山东港口集团、南京港口集团、广州港口集团等单位的委托起草《港口大数据分类与编码》,已经将语料数据考虑在大数据体系之中。
港口航运垂直语料库的构建需要一个科学的目录体系。上海国际航运研究中心已对港口领域的语料进行了细致的梳理,形成了12个一级分类和72个二级分类。一级分类包含港口概述、港口管理与运营、港口设施与设备等,每个一级分类下又细分为货物装卸设备、装卸工艺类型与特点、港口物流链优化等不同的二级分类。这种分类体系有助于清晰地展示港口航运领域的知识结构和信息内容。
港口航运垂直语料库需要专业词向量和知识图谱的构建。通过对专业词汇的词向量进行梳理,才可以更好地理解词汇之间的关系和含义,进而构建出知识图谱。同时,还需梳理词向量中与其他数据对接的关联概念,如统计数据中的货类细分等,以实现数据之间的有效衔接和利用。
专业语料要重“量”更要重“质”
专业领域的语料库建设,往往更看重语料的专业性和质量,而不是一味的追求语料的数量。
首先,语料库的规模是衡量其价值的基础。一个庞大的语料库能够为大模型提供丰富的训练数据,从而提高模型的性能和泛化能力。然而,规模并非唯一重要的因素。如果仅仅追求数量而忽视质量,那么语料库中可能充斥着大量低质量的、重复的或者无关紧要的数据,这不仅无法提升模型的效能,反而可能引入噪声,降低模型的准确性和可靠性。
其次,语料质量是决定模型效能的关键。高质量的语料能够提供准确、一致的信息,有助于模型学习到更加真实和有效的知识。而低质量的语料则可能导致模型学习到错误的信息或者产生误导性的输出。因此,在语料库建设中,必须对语料进行严格的质量控制,确保其准确性和可靠性。
最后,内容分布的均衡性也是评价语料库的重要指标。一个均衡的内容分布能够保证模型在各种情境下都能够做出合理的预测和决策,而内容分布的不均衡则可能导致模型在某些方面的过度拟合或者在另一些方面表现欠佳。因此,在语料库建设中,需要注重内容的多样性和均衡性,以确保模型在各种场景下的适用性。
如果不进行科学评价,很可能会有人利用GPT等工具批量生成大量内容重复而只有形式差异的语料,无法为大模型带来真正的价值。而“综合语料价值指数”(Comprehensive Corpus Value Index,简称CCVI)综合考虑了语料的质量、所属分类的权值以及数量,可以更客观地反映垂直领域大模型语料的资源价值(CCVI=语料质量×语料分类权值×语料数量)。
CCVI评价的引入,不仅能够帮助使用者更加科学地评价和选择语料库,还能够引导在语料库建设中注重质量、多样性和均衡性,从而为大模型提供更加优质、有效的训练数据。
在未来的发展中,业内人士需要更加注重语料库的质量和多样性,同时也应关注其持续更新和扩充,以适应知识的不断发展变化。只有这样,才能构建出更加精准、高效的人工智能模型,为港航业的发展提供有力支持。