
图片
近期,很多用户发现,中国初创公司深度求索在苹果应用商店上架了我方的大模子应用“DeepSeek”,其下方评述中就有网友默示,用了一年的网页端,终于比及了App。
图片
该App的商店页面走漏,这是DeepSeek官方推出的AI助手,可“免费体验与大众率先AI模子的互动雷同”。其使用开源的 DeepSeek-V3 大模子,多项性能标的对都外洋顶尖模子,不错用更快的速率、愈加全面稠密的功能答疑解惑,助力高效好意思好的活命。
图片
App Store 页面截图。
上个月(12月26日),深度求索认真对外发布 DeepSeek-V3大模子,据其先容,该模子在多个方面特等、追平多样开源、闭源大模子。而在DeepSeek开源社区成绩的粗俗好评,显袒露开发者们也曾用脚进行了投票。
最先是百科常识上,V3的常识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)水平比拟前代 DeepSeek-V2.5 (下称V2.5)权贵普及,接近现时推崇最佳的模子 Claude-3.5-Sonnet-1022。长文本测评方面,在DROP、FRAMES 和 LongBench v2 上,V3 平均推崇特等其他模子。
此外,V3 在算法类代码场景(Codeforces),远远率先于市面上已有的一都非o1类模子,并在工程类代码场景(SWE-Bench Verified)靠拢 Claude-3.5-Sonnet-1022。
值得戒备的是,V3在汉文和数学干系基准测试中推崇尤为凸起。在汉文才气上,V3 与 Qwen2.5-72B 在西席类测评 C-Eval 和代词消歧等评测集上推崇周边,但在事实常识 C-SimpleQA 上更为率先。而在好意思国数学竞赛(AIME 2024, MATH)和天下高中数学联赛(CNMO 2024)上,V3大幅跨越了通盘开源闭源模子。
图片
Deepseek-V3与多个国表里大模子的测试数据对比。“Deepseek”公众号
公开良友走漏,在DeepSeek背后是量化私募巨头幻方(High-Flyer Quant),亦然大厂外独逐个家储备上万张英伟达 A100芯片的公司。幻方拓荒于2008年,总部位于中国杭州,专注于诈欺数学、统计学和估计机手艺进行金融阛阓的量化分析和交往。2024年5月体育游戏app平台,DeepSeek-V2发布,幻方量化告捷转型为东说念主工智能前驱,其超廉价钱致使激勉了国内大模子的价钱战,DeepSeek也被飞速冠以“AI界拼多多”之称。
本站仅提供存储事业,通盘执行均由用户发布,如发现存害或侵权执行,请点击举报。