创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
村上里沙兽皇及图片 逐日经济新闻大模子评测陈诉(第2期) - 偷偷撸1
你的位置:偷偷撸1 > 偷拍图片 > 村上里沙兽皇及图片 逐日经济新闻大模子评测陈诉(第2期)
村上里沙兽皇及图片 逐日经济新闻大模子评测陈诉(第2期)
发布日期:2024-09-07 03:45    点击次数:120

  每经记者王嘉琦每经实习裁剪宋欣悦 村上里沙兽皇及图片

  一、评测场景与参评模子笼统

  6月25日《逐日经济新闻大模子评测陈诉》第1期发布。第1期评测聚焦财经新闻采编能力,对15款大模子在“财经新闻标题创作”“微博新闻写稿”“著述症结校对”“财务数据打算与分析”四大应用场景下的能力进行了评测。第1期评测于今,国表里大模子捏续更新,能力收敛莳植,同期也有新的大模子清晰。

  与第1期雷同,《逐日经济新闻大模子评测陈诉》第2期评测依然以覆按大模子在财经新闻应用场景中的能力为标的。

  第2期评测树立了三个应用场景:(1)金融数学打算;(2)商务文本翻译;(3)财经新闻阅读。

  每经大模子评测小组为每个场景制定了相应的评价维度和评分主张。逐日经济新闻10名资深记者、裁剪凭据评价维度和评分主张,对各款大模子在三大场景中的发扬进行评分,汇总各场景得分,最终得到参评大模子总分。

  第2期评测中的任务以客不雅题为主,绝大大皆题目皆有尺度谜底。同期,评价维度和评分尺度也愈加杰出客不雅性,尽量幸免主不雅性评价。

  需要终点指出的是,本期评测是通过各款大模子的API端口,并在默许温度下完成。与公众用户使用的大模子C端对话器具存在各异。然则评测遵守对用户在具体场景中摄取相宜的大模子器具,依然具有首要参考价值。

  本期评测均在“雨燕智宣AI创作+”测试台上进行,一共有15款大模子参与,包括:

  GPT-4o、智谱GLM-4-0520、百度文心ERNIE-4.0-Turbo、阿里通义qwen-max、商汤斟酌SenseChat V5.5、讯飞星火Spark 4.0 Ultra、腾讯混元hunyuan-pro、月之暗面moonshot-v1、百川智能Baichuan4、零一万物Yi-Large、Anthropic Claude 3.5 Sonnet、幻方求索DeepSeek-V2、字节豆包Doubao-pro-32k-240615、昆仑天工SkyChat-3.0、谷歌Gemini 1.5 Pro。

  本期评测时辰为2024年8月12日,因此上述参评大模子中的总共国内大模子均为截止8月12日的最新版块。

  二、评测遵守

  评测遵守炫耀,“黑马”幻方求索DeepSeek-V2以237.75的总分位居榜首,紧随自后的是腾讯混元hunyuan-pro(237.08分)和Anthropic Claude 3.5 Sonnet(234.42分)。

  在专项能力方面,各模子展现出了不同的上风。

  金融数学打算方面,腾讯混元hunyuan-pro以78分的获利最初其他模子。商务文本翻译场景中,Anthropic Claude 3.5 Sonnet以91.67分的高分远超其他模子。昆仑天工SkyChat-3.0在财经新闻阅读场景中得分最高,达到87.75分。

  1、评测场景一:金融数学打算

  (1)评测任务及评分主张

  13.8%和13.11%哪个大?这谈小学生难度的数学题,曾难倒了一众海表里大模子。不禁让东谈主念念考,大模子在数学打算方面,到底是什么水平?

  在实质应用中,数学打算往往不所以“13.8%和13.11%哪个大”这么的表情出现,而是出当今具体行业和具体业务场景中。

  对于逐日经济新闻来说,财经新闻报谈往往触及金融证券行业相干的数学打算。因此,评测小组摄取“金融数学打算”行为本期评测的第二个场景,一方面覆按各款大模子的数学打算能力,另一方面也施行大模子对金融证券相干倡导的攀附。

  评测小组树立了10谈题目,其中绝大大皆来自证券从业经历考试真题或模拟题,遮蔽股票市盈率、市净率、基金金钱净值以及可诊疗债券诊疗价钱打算等。这些题目需要大模子精确攀附金融证券倡导,还要求大模子好像给出正确的打算公式和打算遵守。

  在评分尺度方面,评测小组要求每款大模子分散进行两次沉静的回复。每题满分为10分(公式正确得3分,遵守正确得7分),总分揣摸100分。最终获利按两次得分的平平分进行排行。

  (2)评测遵守

  (3)遵守分析

  从合座排行来看,参评大模子在数学打算能力上仍有较大的莳植空间。15款大模子中,仅有腾讯混元hunyuan-pro、幻方求索DeepSeek-V2、商汤斟酌SenseChat V5.5、字节豆包Doubao-pro-32k这4款大模子合格,越过了60分。其中,腾讯混元hunyuan-pro以78分排行第一,幻方求索DeepSeek-V2以72.5分紧随自后。

  比较之下,零一万物的Yi-Large、百度的文心ERNIE-4.0-Turbo以及昆仑天工的SkyChat-3.0则在金融数学打算方面发扬稍显忘形,分散位列倒数第三、倒数第二与倒数第一的位置。

  与第1期评测中的打算题“财务数据打算和分析”排行对比,腾讯混元hunyuan-pro与字节豆包Doubao-pro-32k在打算方面有较大莳植。具体而言,腾讯混元hunyuan-pro尤为杰出,从第1期的第六名一跃成为本期打算题的第一;字节豆包Doubao-pro-32k从第八名莳植到第四名。

  同期,经过版块更新的商汤斟酌SenseChat系列,在第2期评测中也以SenseChat V5.5的新姿态亮相,并终了从原先第十四名到第三名的刚劲跨越。

  上一期的“黑马”幻方求索DeepSeek-V2依然发扬出杰出且清爽的打算能力,在两期评测的打算题中均排行第二名。

  与之酿成显然对比的是,零一万物Yi-Large在上期评测的打算题中排行第三,但在这次评测中碰到“滑铁卢”,降到了倒数第三名。

  从具体题目分析,对于用一步打算即可得到谜底的通俗打算题,15款大模子均发扬邃密。

  举例,问题1、问题2和问题3中,15款大模子均得到了满分。

  【问题1】一只股票每股市价10元,每股净金钱2元,每股收益0.5元,这只股票市盈率为若干?

  【谜底】20(倍)。市盈率主张暗示股票价钱和每股收益的比率,该主张揭示了盈余和股价之间的关系,用公式抒发为:市盈率=每股市价/每股收益(年化),则市盈率=10/0.5=20。

  【问题2】A公司的每股市价为8元,每股净金钱为4元,则A公司的市净率倍数为若干?

  【谜底】2(倍)。市净率=股价/每股净金钱=8/4=2

  【问题3】要是某可诊疗债券面额为1000元,律例其诊疗比例为40,则诊疗价钱为若干元?

  【谜底】25(元)。诊疗价钱=可诊疗债券面值/诊疗比例=1000/40=25。

  关联词,面对打算公式复杂、行径较多的题目时,不少大模子发扬并不睬想,导致分数差距被拉开。如问题8。

  【问题8】若法定入款准备率6%,客户提现比率10%,逾额准备率9%,则可求出货币乘数为若干?

  【谜底】4.4。货币乘数打算公式m=(1+Rc)/(Rd+Re+Rc)。

  本题中,货币乘数m=(1+10%)/(6%+9%+10%)=4.4。其中,Rc暗示现款漏损率(提现率),Rd暗示法定准备金率,Re暗示逾额准备金率。

  幻方求索DeepSeek-V2答:

  -打算遵守:<5.56>

  -打算公式:货币乘数=1/(法定入款准备率+客户提现比率+逾额准备率)

  -打算经过:货币乘数=1/(0.06+0.10+0.09)=1/0.25=4

  除腾讯混元hunyuan-pro在此题得到满分10分、阿里通义qwen-max、字节豆包Doubao-pro-32k得到3分外,其余12款大模子未能拿分。

  此外,问题9让好多大模子堕入了误区。问题9的考点在于,百分数作差的遵守,应该用百分点而非百分数来暗示。

  【问题9】某银即将入款利率从2%提高到2.15%,求教加息后的入款利率与加息前的入款利率比较,增长了若干?

  【谜底】0.15个百分点或15个基点(bp)

  腾讯混元hunyuan-pro答:

  **第9题**:入款利率增长打算。

  -加息前后利率分散为$r_1=0.02$和$r_2=0.0215$。

  -增长率$g=frac{r_2-r_1}{r_1}$。

  凭据以上分析咱们不错得到如下方程:

丝袜美腿

  **第9题**:增长率$g=frac{0.0215-0.02}{0.02}$。

  让咱们运行打算。

  **第9题**的打算遵守炫耀加息后的入款利率增长了7%。

  幻方求索DeepSeek-V2答:

  打算遵守:<0.15%>

  -打算公式:利率增长=加息后的利率-加息前的利率

  -打算经过:利率增长=2.15%-2%=0.15%

  月之暗面moonshot-v1答:

  **打算遵守:0.15个百分点**

  -**打算公式:**利率增长=(加息后的入款利率-加息前的入款利率)/加息前的入款利率*100%村上里沙兽皇及图片

  -**打算经过:**利率增长=(2.15%-2%)/2%*100%=0.15%/2%*100%=7.5%,即0.15个百分点

  幻方求索DeepSeek-V2离正确谜底仅一步之遥,但最终如故掉进了“坑”里。而月之暗面moonshot-v1在第二次回复中,固然打算公式造作,但出乎猜度地得出正确遵守。

  2、评测场景二:商务文本翻译

  (1)评测任务及评分主张

  英汉互译亦然一个大模子高频使用场景。关联词,翻译质料的评估常濒临主不雅性强及尺度不一的挑战。为使评价尺度尽量客不雅,每经评测小组采纳“商务文本翻译”行为测评场景,以翻译的专科性和精确度为主要尺度。

  文本摄取方面,评测小组及第上市公司公告、条约和法律条目和科技类著述这类瞄准确性要求高的文本。此外,这些文本均可在公司官网获取英、汉两个官方版块,可为评分提供客不雅参考。

  文本一:《小鹏汽车与专家汽车集团缔结电子电气架构本事政策团结框架条约》

  英文文本衔接:

  https://ir.xiaopeng.com/news-releases/news-release-details/xpeng-and-volkswagen-group-announce-entry-framework-agreement-ee

  华文文本衔接:

  https://www.xiaopeng.com/news/company_news/5289.html?reserve_source=168801

  文本二:《解码GAN若何掀翻生成式AI改换波浪》

  英文文本衔接:

  https://blogs.nvidia.com/blog/ai-decoded-gan-canvas-app/

  华文文本衔接:

  https://blogs.nvidia.cn/blog/ai-decoded-gan-canvas-app/

  文本三:《Apple狡饰政策(节选)》

  英文文本衔接:

  https://www.apple.com/legal/privacy/en-ww/

  华文文本衔接:

  https://www.apple.com/legal/privacy/szh/

  在评分尺度方面,评测小组专注准确性和兴味好意思满性,即信达雅中的“信”,而不讲理主不雅性评价过高的“达”和“雅”。

  每款大模子分散对三篇文本的英、汉两个版块进行翻译,完成共六次翻译任务。随后,依据“兴味好意思满”“兴味准确”“术语一致性”“细节准确性”四项维度,对每次翻译遵守进行评估。每个维度均设有具体的评分确定(见下图)。最终,按六次获利的平平分进行排行,总分满分100分。

  (2)评测遵守

  (3)遵守分析

  合座来看,参评大模子发扬了较高的翻译水平,平平分达到了84.5分。15款大模子中,有13款大模子平平分越过了80分。

  其中,Anthropic Claude 3.5 Sonnet以91.67分的高分排行第一,谷歌Gemini 1.5 Pro、GPT-4o、字节豆包Doubao-pro-32k紧随自后,均展现了不俗的翻译实力。值得清静的是,前三名均为国外大模子。

  关联词,腾讯混元hunyuan-pro、智谱GLM-4与昆仑天工SkyChat-3.0在该场景下的发扬则稍显忘形,分散位于榜单的后三位。

  绝大大皆大模子在汉译英任务上的发扬要优于英译汉。除幻方求索DeepSeek-V2外,其余14款大模子均在汉译英任务上,取得了更高的分数。

  在英译汉任务中,评测小组不雅察到,国外大模子展现出了对英语出奇抒发方式,尤其是双关语的潜入攀附与精确翻译能力。

  具体而言,文本二《解码GAN若何掀翻生成式AI改换波浪》的英文标题“Decoding How the Generative AI Revolution BeGAN”微妙哄骗了英语双关语。

  在这句话中,“BeGAN”是一个双关语的使用方式,结合了“began”(运行)和“GAN”(Generative Adversarial Network,生成拒抗网罗)的词汇特征。这句话的意图是揭示生成式东谈主工智能改换是若何运行的,而GAN是这一改换的要紧组成部分。通过“BeGAN”的微妙使用,标题不仅传达了生成式AI的发源,同期杰出了GAN在这还是过中演出的要津扮装。

  【原文】Decoding How the Generative AI Revolution BeGAN

  【谜底】解码GAN若何掀翻生成式AI改换波浪

  Anthropic Claude 3.5 Sonnet答:

  解密生成式AI改换若何始于GAN

  GPT-4o答:

  解码生成式AI改换的起先:GAN

  百度文心ERNIE-4.0-Turbo答:

  生成式AI改换若何拉开序幕

  字节豆包Doubao-pro-32k答:

  解读生成式东谈主工智能改换若何开启

  Anthropic Claude 3.5 Sonnet和GPT-4o两款国外大模子皆能较好地攀附双关语,并对其进行准确翻译。而国内大模子中,合座发扬优异的百度文心ERNIE-4.0-Turbo和字节豆包Doubao-pro-32k也并莫得很好地翻译出这一对关语。

  不外,各款大模子在英译汉中的得分差距不大,确实使总分拉开差距的是汉译英,且国外大模子的发扬要深广优于国内大模子。

  在汉译英中,三款国外大模子得分皆越过90分。其中,总排行第一的Anthropic Claude 3.5 Sonnet汉译英得分97分。比较之下,昆仑天工SkyChat-3.0在该任务上仅得到了78.33分,进出近20分。

  从具体文天职析,在汉译英任务中,最能拉开分数差距的是文本三《Apple狡饰政策(节选)》。文本三属于法律文本,其往往具有高逻辑性和结构性,在词汇的使用上也相配严谨,往往幸免使用暗昧或容易引起歧义的抒发。

  三款国外大模子——Anthropic Claude 3.5 Sonnet、谷歌Gemini 1.5 Pro以及GPT-4o均在该任务上均得到100分。

  深入分析具体的评价维度,评测小组发现,“兴味准确”与“术语一致性”成为了拉开分数差距的两大中枢身分。

  在“兴味准确”维度上,零一万物Yi-Large、昆仑天工SkyChat-3.0、智谱GLM-4在文本三《Apple狡饰政策(节选)》汉译英任务中发扬欠佳。

  比如:

  【原文】此外,Apple不会为了第三方的营销主张与第三方分享个东谈主数据。

  零一万物Yi-Large答:

  Additionally,Apple does not share personal data with third parties for marketing purposes.

  原文中的“第三方的营销主张”是强调Apple不会为了第三方的营销主张而分享数据,而不是“Apple的营销主张”。零一万物Yi-Large的翻译“for marketing purposes”未明确指出这是第三方的营销主张,使得信息有些暗昧。

  在“术语一致性”维度上,就连排行国内大模子总平平分第二的百川智能Baichuan4和在国内大模子汉译英单项排行第一的百度文心ERNIE-4.0-Turbo,也未能展现出令东谈主统统茂盛的水平。

  比如:

  【原文】Apple附庸公司

  【谜底】Apple affiliates或Apple-affiliated companies

  百川智能Baichuan4、百度文心ERNIE-4.0-Turbo、零一万物Yi-Large、腾讯混元hunyuan-pro、月之暗面moonshot-v1、智谱GLM-4答:

  Apple subsidiaries

  这里的“Apple附庸公司”指与Apple有清雅业务关系的公司。这可能包括子公司、姊妹公司或其他通过总共权或团合伙伴关系与苹果公司关系联的实体,术语边界较广。

  “affiliates”往往用于描摹芜俚的企业关系,包括子公司、关联公司、联营公司等。但“subsidiaries”专指由母公司统统或部分控股的子公司。

  在“兴味好意思满”维度上,幻方求索DeepSeek-V2、昆仑天工SkyChat-3.0相对来说,发扬欠佳。

  比如:

  【原文】在有正当依据的情况下,要是咱们确定露馅对于实行咱们的条目和条件或保护咱们的运营或用户是合理必要的,或者在重组、归并或出售行径中是合理必要的,咱们也可能会露馅对于你的信息。

  幻方求索DeepSeek-V2答:

  We may also disclose information about you if we determine that disclosure is reasonably necessary to enforce our terms and conditions or protect our operations or users,or if it is reasonably necessary in the context of a reorganization,merger,or sale.

  原文提到了“在有正当依据的情况下”,这是法律条目中的要紧适度词,标明信息露馅必须基于法律基础。

  幻方求索DeepSeek-V2的翻译中勤勉这一内容。

  在“细节准确性”维度上,腾讯混元hunyuan-pro、月之暗面moonshot-v1以及字节豆包Doubao-pro-32k的发扬存待莳植。

  比如:

  【原文】其他。

  【谜底】Others.

  腾讯混元hunyuan-pro答:

  Other.

  在这里,“others”行为代词在法律条目中使用时愈加明确和好意思满,尤其在触及到第三方或其他未明确提到的实体或个东谈主时,它标明了文献所指的边界。

  而腾讯混元hunyuan-pro译为了“other”,在细节的处理上并不到位。因为在法律条目中,单独使用“other”可能会激励歧义,因为它莫得明确指出与什么相对的“其他”,往往需要一个后续的名词来使其含义好意思满,如“other conditions”。

  而对于句子长度深广不长、逻辑相对通俗然晰的文本,绝大大皆大模子发扬邃密。

  举例,在文本二《解码GAN若何掀翻生成式AI改换波浪》的汉译英任务中,13款大模子得分达90分及以上,其中还有款大模子得回满分。

  3、评测场景三:财经新闻阅读

  (1)评测任务及评分主张

  在平日使用中,用户利用大模子快速阅读著述并提供相干信息是一个多频场景。这要求大模子好像快速、准确且清爽地提真金不怕火著述信息。

  本期评测的第一个场景“财经新闻阅读”旨在施行各款大模子精确捕捉信息的能力。为此,评测小组及第了两篇逐日经济新闻的财经新闻稿,并针对每篇著述树立了5谈问答题,要求大模子阅读新闻稿后进行答题。

  著述一:《本钱商场迎来第三个“国九条”,会有第三次“大牛市”吗?》

  著述二:《负利率完了!日本央行8年超宽松施行复盘,17年来初次加息将产生哪些影响》

  每篇著述篇幅约4000字。总共题目均能从著述中找到谜底,一部分问题的谜底明确位于著述中某个位置;而另一部分问题的谜底则分布在著述多个段落,覆按大模子对要津信息的提真金不怕火整合能力。

  在评分尺度方面,评测小组要求每款大模子分散对两篇著述各进行两次沉静的阅读和答题,每篇著述对应5谈问答题,每题满分10分,总分50分。随后,评测小组依据得分点,对两次回复遵守分散进行评分。最终,按两次答题的平平分之和进行排行,总分满分100分。由于总共题主张谜底均能从著述中找到明确的谜底,因此评分不存在主不雅判断。

  (2)评测遵守

  (3)遵守分析

  在该场景下,本期评测新加入的大模子——由昆仑万维研发的昆仑天工SkyChat-3.0——以总分87.75分排行第一。GPT-4o、Anthropic Claude 3.5 Sonnet、谷歌Gemini 1.5 Pro三款国外大模子紧随自后。比较之下,智谱GLM-4、百度文心ERNIE-4.0-Turbo及讯飞星火Spark 4.0 Ultra在此方面的发扬则稍显不及,分列该场景排行的后三位。

  评分遵守体现了一个杰出性情:各款大模子在著述二任务中的得分差距不大。确实拉开差距的是著述一任务。这讲明,对于大大皆模子来说,著述一的内容过甚题目难度更大。总分排行靠前的大模子在两篇著述任务中发扬愈加清爽,讲明这些大模子不错更好地搪塞不同难度的任务。

  从具体题目分析,对得分点单一的题目,绝大大皆大模子发扬邃密且清爽。

  举例,针对著述二的题目一,14款大模子得到了满分。

  【问题1】日本央行负利率政策捏续了若干年?日本退出负利率政策后,全球还有哪些央行在实行负利率?

  【谜底】这秀丽着日本央行清雅退出保管8年之久的负利率政策(5分)。这也意味着,全球再无负利率(5分)。

  再如,著述二的题目二,15款大模子整个得到满分。

  【问题2】日本央行的负利率是什么兴味?负利率政策下,储户在银行存钱还要倒贴钱给银行吗?

  【谜底】日本央行所谓的负利率,针对的是金融机构准备金账户中部分资金实行-0.1%的利率。(5分)也便是说,这个利率是日本央行跟买卖银行之间的利率,跟个东谈主储户莫得径直关系,并不是储户在银行存钱还要“倒贴银行钱”。(5分)

  各款大模子在著述一任务中的得分差距大,主要因为题目四。题目四的得分点分布,需要大模子从著述多处提真金不怕火到相干信息并进行归纳追溯。对此,大大皆模子的发扬不睬想,如字节豆包Doubao-pro-32k和Anthropic Claude 3.5 Sonnet。比较之下,昆仑天工SkyChat-3.0在第二次生成时,给出了较为好意思满的谜底。

  【问题4】本钱商场业内以为,前两次“国九条”的重心分散是什么?

  【谜底】第一次“国九条”:重心是鼓舞本钱商场改进通达。(1分)中枢是扩大径直融资、积极得当惩处股权分置问题。(2分)重在推动本钱商场发展。(1分)

  第二次“国九条”:着眼于促进本钱商场健康发展。(1分)中枢是扩大商场双向通达、饱读吹并购重组、羼杂总共制、松弛私募刊行审批。(4分)重在保护中小投资者利益。(1分)

  字节豆包Doubao-pro-32k答:

  第一次“国九条”重心是鼓舞本钱商场改进通达(1分);第二次“国九条”着眼于促进本钱商场健康发展(1分)。

  Anthropic Claude 3.5 Sonnet答:

  -2004年"国九条":鼓舞本钱商场改进通达(1分)。

  -2014年"国九条":促进本钱商场健康发展(1分)。

  昆仑天工SkyChat-3.0答:

  -**2004年“国九条”**:重心在于扩大径直融资,积极得当惩处股权分置问题(2分),推动本钱商场改进通达(1分)。

  -**2014年“国九条”**:中枢在于扩大商场双向通达,饱读吹并购重组、羼杂总共制、松弛私募刊行审批(4分),促进本钱商场健康发展(1分)。

  三、本期评测追溯

  1、大模子之间差距彰着

  本次评测遵守炫耀,幻方求索DeepSeek-V2(237.75分)、腾讯混元hunyuan-pro(237.08分)、Anthropic Claude 3.5 Sonnet(234.42分)、GPT-4o(231.25分)和商汤斟酌SenseChat V5.5(231.17分)组成第一梯队。值得清静的是,排行靠前的模子中,国产大模子发扬杰出,与顶级国外模子实力十分。

  关联词,从第又名到第十五名,总分差距达到了近40分,响应出大模子间仍存在显耀差距。而在单个场景中,在财经新闻阅读任务中,第又名昆仑天工SkyChat-3.0(87.75分)与临了又名讯飞星火Spark 4.0 Ultra(66分)进出21.75分。

  2、数学打算能力成深广短板

  各款大模子数学打算方面深广存在不及。15款参评模子中,仅有4款模子得分越过60分,其中腾讯混元hunyuan-pro以78分位居榜首。即使是在其他场景发扬出色的模子,如Anthropic Claude 3.5 Sonnet和GPT-4o,在此项测试中也仅得到59分。

  3、国内大模子需提高外语能力

  在商务文本翻译任务中,国外模子展现出彰着上风。Anthropic Claude 3.5 Sonnet、谷歌Gemini 1.5 Pro和GPT-4o在汉译英任务中得分均越过90分。比较之下,国内模子发扬相对忘形,尤其是在处理法律文本和双关语等需要深层说话攀附的内容时。举例,在翻译“Decoding How the Generative AI Revolution BeGAN”这么存在双关抒发的标题时,国外模子发扬彰着优于国内模子。

  4、通用大模子各项能力却不平衡

  第2期评测与第1期评测的场景、维度和尺度不同,导致部分模子排行变化显耀。尽管皆是通用大模子,但存在各项能力不平衡,“偏科”样式严重的情况。

  比如,零一万物Yi-Large两期评测的发扬波动较大。在第1期评测中,它以总分374.8分高居榜首,尤其在财务数据打算与分析任务中得到了126.4分的高分。关联词在第2期评测中,其发扬大幅下滑,终点是在金融数学打算任务中仅得回50.5分,总排行也跌出了前五。

  再如,昆仑天工SkyChat-3.0在财经新闻阅读中排行第一,但在金融数学打算中却垫底(47.5分)。

  腾讯混元hunyuan-pro的发扬则展现了彰着的跳动。在第1期评测中,它的总分为298.5分,排行相对靠后。但在第2期评测中,腾讯混元hunyuan-pro以237.08分的总分位列第二,尤其在金融数学打算任务中以78分的获利最初其他模子。

  比较之下,幻方求索DeepSeek-V2在两次评测中皆发扬出色。在第1期评测中,它以总分335.2分排行第三;到第2期评测,更所以237.75分的获利跃居榜首。终点是在客不雅性较强的任务上,如第1期的财务数据打算与分析(133.4分)和第2期的金融数学打算(72.5分),幻方求索DeepSeek-V2皆保捏了较高水平。

  国外大模子中,Anthropic公司的Claude在两次评测中皆发扬不俗,但排行有所变动。在第1期中,Anthropic Claude 3 Opus以361.2分排行第二;在第2期中,Anthropic Claude 3.5 Sonnet尽管在商务文本翻译任务中发扬出色(91.67分),但总体排行略有着落,以234.42分排在第三位。

  逐日经济新闻大模子评测小组

  2024年9月村上里沙兽皇及图片



创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
JzEngine Create File False