jiuyou.com-百川智能发布超千亿大模型Baichuan 3 中文评测超越GPT-4

日期：2026-05-30

【JIUYOU新闻】1月29日，百川智能发布超千亿参数的年夜语言模子Baichuan 3。于多个权势巨子通用能力评测如CMMLU、GAOKAO及AGI-Eval中，Baichuan 3都揭示了精彩的能力，特别于中文使命上更是逾越了GPT-4。而于数学及代码专项评测如MATH、HumanEval及MBPP中一样体现精彩，证实了Baichuan 3于天然语言处置惩罚及代码天生范畴的强盛实力。

不仅云云，其于对于逻辑推理能力和专业性要求极高的MCMLE、MedExam、CMExam等权势巨子医疗评测上的中文效果一样跨越了GPT-4，是中文医疗使命体现最好的年夜模子。Baichuan 3还有冲破“迭代式强化进修”技能，进一步晋升了语义理解及天生能力，于诗词创作的格局、韵律、表意等方面体现优秀，领先在其他年夜模子。

基础能力周全晋升，多项权势巨子评测中文使命成就逾越GPT-4

Baichuan 3于多个英文评测中体现精彩，到达靠近GPT-4的程度。而于CMMLU、GAOKAO等多个中文评测榜单上，更是逾越GPT-4揭示了其于中文使命上的上风。

百川智能发布超千亿大模型Baichuan 3 中文评测超越GPT-4

此外，于MT-Bench、IFEval等对于齐榜单的评测中，Baichuan 3逾越了GPT-3.五、Claude等年夜模子，处在行业领先程度。

百川智能发布超千亿大模型Baichuan 3 中文评测超越GPT-4

与百亿、几百亿级别参数模子练习差别，超千亿参数模子于练习历程中对于高质量数据，练习不变性、练习效率的要求都超出跨越几个量级。为更好解决相干问题，百川智能于练习历程中针对于性地提出了“动态数据选择”、“主要度连结”以和“异步CheckPoint存储”等多种立异技能手腕和方案，有用晋升了Baicuan 3的各项能力。

高质量数据方面，传统的数据筛选依赖人工界说，经由过程滤重筛选、质量打分、Textbook筛选等要领过滤数据。而百川智能认为，数据的优化及采样是一个动态历程，应该跟着模子自己的练习历程优化，而非纯真依赖人工先验举行数据的采样及筛选。为周全晋升数据质量，百川智能设计了一套基在因果采样的动态练习数据选择方案，该方案可以或许于模子练习历程中动态地选择练习数据，极年夜晋升数据质量。

练习不变性方面，超千亿参数的模子因为参数目巨年夜，练习历程中常常会呈现梯度爆炸、loss跑飞、模子不收敛等问题。对于此，百川智能提出了“主要度连结”(Salience-Consistency)的渐进式初始化要领，用以包管模子练习早期的不变性。而且优化了模子练习历程的监控方案，于梯度、Loss等指标上引入了参数“有用秩”的要领来提前发明练习历程中的问题，极年夜加快对于练习问题的定位，确保了末了模子的收敛效果。此外，为了确保于数千张GPU上高效且不变地练习超千亿参数模子，百川智能同步优化了模子的练习不变性及练习框架，并采用“异步CheckPoint存储”机制，可以无机能丧失地加年夜存储的频率，削减呆板妨碍对于练习使命的影响，使Baichuan 3的不变练习时间到达一个月以上，妨碍恢复时间不跨越10分钟。

练习效率方面，百川智能针对于超千亿参数模子的并行练习问题举行了一系列优化，如高度优化的RoPE, SwiGLU计较算子；于数据并行中实现参数通讯与计较的堆叠，以和于序列并行中实现激活值通讯与计较的堆叠，从而有用降低了通讯时间的比重；于流水并行中引入了将激活值卸载至CPU的技能，解决了流水并行中显存占用不均的问题，削减了流水并行的分段数目并显著降低了空泡率。经由过程这些技能立异，Baichuan 3的练习框架于机能方面比拟业界主流框架晋升跨越30%。

医疗数据集Token数超千亿，医疗能力迫近GPT-4

年夜模子医疗暗地里蕴含着巨年夜的社会价值及财产价值，从疾病的诊断、医治到患者照顾护士与药物研发，年夜模子不仅可以或许帮忙大夫提高诊疗效率及质量，帮忙患者得到更好的办事及体验，还有能帮忙社会降低医疗成本及危害，助力医疗资源实现普惠及平权。而且医疗问题专业性强、常识更新速率快、正确性要求高、个别差异年夜，能充表现年夜模子的各项能力，被百川智能称为“年夜模子皇冠上的明珠”。是以，诸如OpenAI、google等头部年夜模子企业都将医疗作为模子的重点练习标的目的及机能评价的主要系统。ChatGPT早于2023年2月便已经经由过程了美国医学执照测验（USMLE），显示出其于医学范畴的强盛能力。而google对于医疗范畴的器重愈甚，基在PaLM模子打造了医疗年夜模子Med-PaLM，迭代后的Med-PaLM 2于医学测验MedQA中的成就跨越80分，到达专家程度。

于医疗范畴，年夜模子的万能特征阐扬着至关主要的作用。起首，其多模态进修能力可以或许整合文本、影像、声音等多种类型的医疗数据，提供更周全、正确的阐发及诊断。其次，年夜模子的深层推理能力有助在繁杂医疗决议计划的制订。此外，不变的机能及常识更新能力确保了医疗建议的靠得住性及时效性。同时，年夜模子的语言理解及天生能力使其可以或许处置惩罚专业术语及繁杂句式。末了，模式辨认与进修能力于年夜模子中的运用，使其可以或许从繁杂的医疗数据中进修及辨认出主要的模式及特性。以是，年夜模子想要于医疗范畴拥有优良效果其实不轻易，既需要富厚的医疗常识、适合的Prompt，还有需要模子自己具有过硬的逻辑推理能力。

为了给Baichuan3注入富厚的医疗常识，百川智能于模子预练习阶段构建了跨越千亿Token的医疗数据集，包括医学研究文献、真正的电子病历资料、医学范畴的专业册本及常识库资源、针对于医疗问题的问答资料等。该数据集涵盖了从理论到现实操作，从基础理论来临床运用等方方面面的医学常识，确保了模子于医疗范畴的专业度及常识深度。

针对于医疗常识引发的问题，百川智能于推理阶段针对于Prompt做了体系性的研究及调优，经由过程正确的描写使命、得当的示例样本选择，让模子输出越发正确以和切合逻辑的推理步调，终极不仅晋升了Baichuan 3于多项医疗测验上的成就，而且于真正的医疗问答场景下也能给用户提供更精准、过细的反馈。

逻辑推理方面，Baichuan 3于数学及代码等多个权势巨子评测上靠近GPT-4的优秀成就，已经经充实证实了其强盛的基础逻辑推理能力。于拥有富厚高质量专业医疗常识，并能经由过程调优后的Prompt对于这些常识举行充实引发的基础上，联合超千亿参数的推理能力，Baichuan 3于医疗范畴的使命效果晋升显著，于各种中英文医疗测试中的成就晋升了2到14个百分点。

Baichuan 3于多个权势巨子医疗评测使命中体现优秀，不仅MCMLE、MedExam、CMExam等中文医疗使命的评测成就跨越GPT-4，USMLE、MedMCQA等英文医疗使命的评测成就也迫近了GPT-4的水准。

百川智能发布超千亿大模型Baichuan 3 中文评测超越GPT-4

冲破“迭代式强化进修”技能，创作精准度年夜幅晋升

语义理解及文本天生，作为年夜模子最基础的底层能力，是其他能力的支柱。为晋升这两项能力，业界举行了年夜量摸索及实践，OpenAI、Google以和Anthropic等引入的RLHF(基在人类反馈的强化进修)及RLAIF(基在AI反馈的强化进修)即是此中的要害技能。

基在强化进修对于齐后的模子不仅可以更精准地舆解用户指令，特别是多约束以和多轮对于话下的指令，还有能进一步晋升天生内容的质量。可是于年夜模子中充实阐扬强化进修的作用不仅需要不变且高效的强化进修练习框架及高质量的优质偏序数据，还有需要于“摸索与使用”二者间举行均衡，实现模子能力连续爬坡。

对于在以上问题，百川智能举行了深切研究，并给出了针对于性的解决方案。强化进修练习框架方面，百川智能自研了练习推理双引擎交融、多模子并行调理的PPO练习框架，可以或许很好撑持超千亿模子的高效练习，练习效率比拟业界主流框架晋升400%。偏序数据方面，百川智能立异性的采用了RLHF与RLAIF联合的方式来天生高质量优质偏序数据，于数据质量及数据成本之间得到了更好的均衡。于此基础上，对于在“摸索与使用”这一底子挑战，百川智能经由过程PPO摸索空间与Reward Model评价空间的同步进级，实现“迭代式强化进修”(Iterative RLHF&RLAIF)。基在强化进修的版本爬坡，可以于SFT的基础长进一步阐扬底座模子的潜力，让Baichuan 3的语义理解及天生创作能力年夜幅晋升。

以文本创作中最具挑战的唐诗宋词为例，作为中国传统文化的瑰宝，诗词不仅于格局、平仄、对于偶、韵律等方面均有着严酷的约束前提，而且内容高度凝炼、寄意深远。假如仅经由过程SFT的微调进修，一方面高质量诗词的创作数据需要极高的专家成本，另外一方面不克不及于平仄、对于偶、韵律等多个方面实现较好的约束理解及遵照。此外，传统的单次RLHF范式于唐诗宋词眼前也碰到极年夜挑战，PPO于练习历程中天生的Response有可能凌驾Reward Model的评价规模致使“摸索”的历程掉控。

Baichuan 3联合“RLHF&RLAIF”以和迭代式强化进修的要领，让年夜模子的诗词创作能力到达全新高度。可用性比拟当前业界最佳的模子程度晋升达500%，文彩远超GPT-4。对于在宋词这类格局多变，布局深细、韵律富厚的高难度体裁，天生的内容亦能工致对于仗、韵脚及谐。其精准、深挚的创作功底，将让每一个人都能轻松创作出咏物、寄思的五言律诗、七言绝句，写下的言志、抒怀的“沁园春”、“定风浪”，这不仅可以晋升公共的人文素养，还有能助力中华传统文化于年夜模子时代真正地“活”起来。

百川智能发布超千亿大模型Baichuan 3 中文评测超越GPT-4

作为参数范围跨越千亿的年夜语言模子，Baichuan 3不仅英文效果到达靠近GPT-4的程度，还有于多项通用中文使命的体现上实现了对于GPT-4的逾越，是百川智能的全新里程碑。Baichuan 3周全的通用能力以和于医疗范畴的强盛体现，将为百川智能打造“超等运用”，把年夜模子技能落地到诸多繁杂运用场景提供有力支撑。

-jiuyou.com

其他新闻