黄篇网站在线播放_一进一出又大又粗爽视频_人人操人人干天天射_少妇久久久久久久久久

歡迎光臨迪賽科技有限公司——湖南網(wǎng)站建設(shè)十年品牌

將湖南網(wǎng)站建設(shè)專家——迪賽科技設(shè)為首頁(yè) | 給迪賽科技有限公司發(fā)送郵件 | 將湖南網(wǎng)站建設(shè)專家——迪賽科技加入收藏

免費(fèi)熱線電話:400-1888-236


國(guó)內(nèi)開源第一!百川開源大模型Baichuan-13B評(píng)測(cè)揭曉

來(lái)源: 百川智能     作者:admin     時(shí)間:2023-07-18     點(diǎn)擊率:1545


 

  新智元報(bào)道

  來(lái)源:CLUE 中文語(yǔ)言理解測(cè)評(píng)基準(zhǔn)

  編輯:好困桃子

  70 億參數(shù)模型發(fā)布后短短 26 天,百川智能便開源了號(hào)稱最強(qiáng)的中英文 130 億參數(shù)模型——Baichuan-13B。那么真實(shí)性能到底如何?最近,SuperCLUE 團(tuán)隊(duì)把它拉出來(lái)溜了溜。

  目前為止,中文社區(qū)已經(jīng)陸續(xù)發(fā)布了大量的開源模型,主要集中在 6B-13B 之間。

  百川智能團(tuán)隊(duì)繼 6 月發(fā)布了后,前段時(shí)間又最新開源了支持商用的。

  項(xiàng)目地址:https://github.com/baichuan-inc/Baichuan-13B

  那么,百川開源的這個(gè)模型相對(duì)于其他國(guó)內(nèi)外有代表性的模型表現(xiàn)如何?

  比如,與 ChatGPT3.5 有多大差距;與國(guó)內(nèi)代表性的開源模型相比是什么水平;在一些比較受關(guān)注的能力上,如生成與創(chuàng)作、邏輯推理、代碼生成,表現(xiàn)如何……

  對(duì)此,SuperCLUE 團(tuán)隊(duì)基于 ,也就是在開放式的問題并結(jié)合多輪對(duì)話能力的測(cè)試,用 1200 道題對(duì) Baichuan-13B-Chat 進(jìn)行了測(cè)評(píng)。

  話不多說(shuō),先看成績(jī)!

  結(jié)論

  1. 目前是中文百億參數(shù)最好的模型嗎?

  目前認(rèn)為對(duì)于同等量級(jí)開源模型 ,在 SuperCLUE 開放式多輪測(cè)評(píng)上 Baichuan-13B-Chat 是最好的開源模型。

  2. 與 ChatGPT3.5 接近了嗎?

  與 ChatGPT3.5 比較,在 SuperCLUE 開放式多輪測(cè)評(píng)的常見任務(wù)中,如生成與創(chuàng)作、角色扮演、上下文對(duì)話、知識(shí)與百科,效果與 ChatGPT3.5 及 Claude 基礎(chǔ)版相比是接近的(詳見定量分析),但在復(fù)雜任務(wù)上,如代碼生成、數(shù)學(xué)計(jì)算、邏輯與推理,還存在比較大的進(jìn)步空間。

  以下是團(tuán)隊(duì)從定量和定性兩個(gè)角度對(duì)模型進(jìn)行的測(cè)評(píng)分析。

  定量分析

  SuperCLUE-Open(開放式多輪測(cè)評(píng))

  注:評(píng)估的基線模型為 gpt-3.5-turbo,gpt-3.5-turbo 的勝和率為理論值。

  計(jì)算方法

  針對(duì)一個(gè)特定問題,利用超級(jí)模型作為評(píng)判官,被評(píng)估的模型相對(duì)于基線模型(如 gpt-3.5)的勝、平局或失敗的個(gè)數(shù);勝和率,是模型的勝率加上平局率之和,即(win+tie)/(win+tie+loss)。win,即勝,tie 即平,loss 即負(fù)。

  詳細(xì)評(píng)測(cè)方法可訪問:

  在 SuperCLUE 開放式多輪基準(zhǔn)中,Baichuan-13B-Chat 具有非常不錯(cuò)的效果。在與國(guó)際代表性的模型對(duì)戰(zhàn)中,有 65.28% 的勝和率,即只有約1/3 的概率是負(fù)。

  在當(dāng)前的生成問題與多輪評(píng)測(cè)基準(zhǔn)中,相對(duì)于 gpt-3.5、Claude 基礎(chǔ)版已經(jīng)基本接近,相對(duì)于國(guó)內(nèi)的百億級(jí)開源模型,Baichuan-13B-Chat 具有很大的領(lǐng)先性(超過(guò)了 20 點(diǎn)以上)。

  SuperCLUE-Open(開放式多輪測(cè)評(píng))十大能力:以 Baichuan-13B-Chat 為例

  在 SuperCLUE 開放式多輪測(cè)評(píng)基準(zhǔn)的十大能力評(píng)估中,該模型在多個(gè)能力上具有較好的表現(xiàn)(以勝和率為指標(biāo)),部分任務(wù)有比較大的改進(jìn)空間。

  1. 表現(xiàn)出色的能力

  • 生成與創(chuàng)作能力(91.67%)

  • 上下文對(duì)話能力(78.33%)

  • 角色扮演能力(91.67%)

  • 閑聊能力(88.33%)

  • 安全能力(81.67%)

  在上面的 5 個(gè)能力上,接近或達(dá)到 80% 的成績(jī)。在知識(shí)與百科上,即在知識(shí)儲(chǔ)備方面的能力,雖然是絕對(duì)分?jǐn)?shù)不是很高,但是相對(duì)于其他模型,已經(jīng)是非常不錯(cuò)的表現(xiàn)。

  2. 表現(xiàn)不足的能力

  可能是模型參數(shù)規(guī)模較小,在代碼、計(jì)算方面相對(duì)表現(xiàn)較弱。代碼生成能力在該基準(zhǔn)中,只有 25% 的勝和率(勝利和平局的概率),計(jì)算能力方面只有 35.71% 的勝和率。

  團(tuán)隊(duì)也在 github 項(xiàng)目中發(fā)現(xiàn)了代碼問題的 issue,https://github.com/baichuan-inc/Baichuan-13B/issues/18

  定性分析

  1. 基礎(chǔ)能力的例子

  1)生成與創(chuàng)作

  給定一個(gè)話題、一個(gè)課題、一個(gè)寫作任務(wù)來(lái)創(chuàng)作一段文字對(duì)于 LLMs 而言是相對(duì)比較容易的任務(wù)。 對(duì)此,百川能夠很好的輸出一段流暢、易讀的文字,且有較長(zhǎng)的生成長(zhǎng)度。

  同時(shí),在各種生成任務(wù)上,拒絕回答的情況較少。 比如在下面這個(gè)示例中,gpt-3.5-turbo 拒絕了正面回答相關(guān)問題,而百川則良好的完成了任務(wù)。

  2)語(yǔ)義理解與抽取

  在遵循用戶指令,以恰當(dāng)?shù)母袷酵瓿上掠稳蝿?wù)的方面上百川有不錯(cuò)的表現(xiàn)。

  百川往往能夠正確理解用戶的需求,并且以恰當(dāng)?shù)母袷捷敵龌卮?,比如說(shuō)抽取用戶輸入中的特定字段并且以 json 的格式返回。

  在以下示例中,百川精準(zhǔn)的給出了指令指出的字段,并且使用合適的格式返回了答案。

  而 gpt-3.5-turbo 雖然也完成了任務(wù),但是返回了一點(diǎn)多余的內(nèi)容,這在實(shí)際的下游場(chǎng)景中可能會(huì)對(duì)編程造成一定的麻煩。

  2. 上下文能力的例子

  在兩輪對(duì)話的測(cè)試中,百川展現(xiàn)了不錯(cuò)的上下文能力。在如下示例中:

  回答第一個(gè)問題時(shí),百川和 gpt-3.5-turbo 都提供了詳細(xì)的、實(shí)用的建議來(lái)幫助用戶應(yīng)對(duì)焦慮。他們的答案都包含了尋找焦慮的原因、嘗試放松技巧、保持健康的生活方式和尋求專業(yè)幫助等建議。

  然而,在回答第二個(gè)問題時(shí),gpt-3.5-turbo 坦誠(chéng)地表示,作為一個(gè)人工智能,它沒有親身經(jīng)歷,因此無(wú)法提供包含個(gè)人經(jīng)歷的答案。

  相反,百川創(chuàng)造性地構(gòu)建了一個(gè)假設(shè)的個(gè)人經(jīng)歷,盡管這并不真實(shí),但它確實(shí)滿足了用戶的需求,使答案更具人性化和共鳴。

  因此,考慮到第二個(gè)問題的回答,團(tuán)隊(duì)認(rèn)為百川的表現(xiàn)更加出色,因?yàn)樗玫刈裱擞脩舻闹甘?,提供了一個(gè)包含「醫(yī)生」的親身經(jīng)歷的答案,盡管這是一個(gè)假設(shè)的情況。

  3. 復(fù)雜任務(wù)(邏輯推理、代碼生成、思維鏈路等)的例子

  1)代碼生成

  相對(duì)來(lái)說(shuō),百川的代碼能力有一定的不足,具體可以體現(xiàn)在:生成不正確的代碼、使用場(chǎng)景考慮不全等問題上。

  比如在示例中,用戶明確地要求了將整數(shù)逆轉(zhuǎn),然而百川僅僅考慮了將列表中所有元素逆轉(zhuǎn)的實(shí)現(xiàn),而并沒有實(shí)現(xiàn)僅逆轉(zhuǎn)整數(shù)的功能。

  與之相反,gpt-3.5-turbo 則面面俱到地完成了任務(wù),成功的實(shí)現(xiàn)了只逆轉(zhuǎn)整數(shù)。

  2)邏輯推理與計(jì)算

  邏輯推理與計(jì)算也是百川相對(duì)不足的方面,在許多問題上百川邏輯思維可能存在不足,無(wú)法給出正確答案。

  可以看到,在示例中,百川并沒有能夠正確給出答案。

  不可否認(rèn)的是,邏輯推理與計(jì)算對(duì)于任何大語(yǔ)言模型來(lái)說(shuō)都是一大難點(diǎn)與痛點(diǎn),即使是對(duì)于 gpt4 而言,稍難的題目就難以給出正確答案。

  評(píng)估的不足和局限性

  1. 它是一個(gè)自動(dòng)化的模型能力測(cè)評(píng),沒有人類的主觀因素;雖然加州伯克利大學(xué)/斯坦福大學(xué)的相關(guān)研究表明(見延伸閱讀),自動(dòng)化測(cè)評(píng)具有與人類評(píng)估的高度一致性(相關(guān)系數(shù) 0.8-0.9),但進(jìn)一步的分析還可以包括人類對(duì)模型的評(píng)估。

  2. 評(píng)估的能力主要是基于 SuperCLUE 的十大基礎(chǔ)能力,即使具有較高的代表性,但并不能保證覆蓋了所有能力的評(píng)估。

  3. 當(dāng)前各個(gè)大模型廠商在快速迭代中,雖然團(tuán)隊(duì)報(bào)告的數(shù)字是最新的(7 月中旬),但各個(gè)廠商的快速迭代可能會(huì)導(dǎo)致后續(xù)相對(duì)表現(xiàn)的進(jìn)一步變化。

  4. 在本文中,團(tuán)隊(duì)沒有測(cè)試一些其他但有用的維度。比如,沒有測(cè)試模型的性能問題(推理速度),也還沒有測(cè)試模型的支持的有效的輸入長(zhǎng)度。后續(xù)可能會(huì)進(jìn)行專門的測(cè)試。

  參考資料:

  SuperCLUE-Open:中文通用大模型開放式與多輪測(cè)評(píng)基準(zhǔn)(7 月)

https://www.cluebenchmarks.com/superclue_open.html

  SuperCLUE-Open 的 GitHub 地址:

  https://github.com/CLUEbenchmark/SuperCLUE-Open

  Baichuan-13B 的 GitHub 地址:

  https://github.com/Baichuan-inc/Baichuan-13B

  Baichuan-13B 的 HuggingFace 地址:

  https://huggingface.co/baichuan-inc/Baichuan-13B-Chat

  https://huggingface.co/baichuan-inc/Baichuan-13B-Base

  Baichuan-13B 的魔搭社區(qū) ModelScope 地址:

  https://modelscope.cn/models/baichuan-inc/Baichuan-13B-Chat

  https://modelscope.cn/models/baichuan-inc/Baichuan-13B-Base

  LMSYS 文章:Chatbot Arena Leaderboard Week 8: Introducing MT-Bench and Vicuna-33B

  相關(guān)項(xiàng)目:Alpaca_Eval: A validated automatic evaluator for instruction-following language models