升级和未经审查:Mistral对其人工智能模型进行检修

币圈资讯 阅读:167 2024-05-25 12:20:29 评论:0

顶级开源人工智能开发商Mistral悄悄地对其大型语言模型(LLM)进行了重大升级,该模型默认不受审查,并提供了几个显著的增强功能。法国人工智能研究实验室在HuggingFace平台上发布了Mistral 7B v0.3模型,而没有发推特或博客。与前代一样,它可能很快成为其他开发者创新人工智能工具的基础。

加拿大人工智能开发商Cohere也发布了其Aya的更新,吹嘘其多语言技能,加入了Mistral和科技巨头Meta的开源行列。

虽然Mistral在本地硬件上运行,并将提供未经审查的回复,但当被问及潜在的危险或非法信息时,它确实包括警告。如果被问及如何闯入汽车,它的回答是,“要闯入汽车,你需要使用各种工具和技术,其中一些是非法的”,并在说明中补充道,“这些信息不应用于任何非法活动。”

最新发布的Mistral包括基础和指令调优检查点。在大型文本语料库上预先训练的基本模型为其他开发人员的微调奠定了坚实的基础,而经过指令调整的即用模型是为会话和任务特定用途而设计的。

Mistral 7B v0.3的令牌上下文大小扩展到32768个令牌,使该模型能够在其上下文中处理更广泛的单词和短语,并提高其在不同文本上的性能。Mistral的标记化器的新版本提供了更高效的文本处理和理解。相比之下,Meta的Lllama的标记上下文大小为8K,尽管其词汇表要大得多,为128K。

图片:Prompt Engineering/YouTube

也许最重要的新功能是函数调用,它允许Mistral模型与外部函数和API交互。这使得它们在涉及创建代理或与第三方工具交互的任务中具有高度的通用性。


将Mistral人工智能集成到各种系统和服务中的能力可能会使该模型对面向消费者的应用程序和工具极具吸引力。例如,它可以让开发人员非常容易地建立不同的代理,相互交互,在网络或专门的数据库中搜索信息,撰写报告,或集思广益——所有这些都不需要将个人数据发送给谷歌或OpenAI等集中式公司。

虽然Mistral没有提供基准测试,但这些增强表明性能比前一版本有所提高——基于词汇表和令牌上下文容量,性能可能提高四倍。再加上函数调用带来的广泛功能,此次升级是市场上第二流行的开源AI LLM模型的一次引人注目的发布。

Cohere发布Aya 23,一个多语言模特系列

除了Mistral的发布,加拿大人工智能初创公司Cohere还推出了Aya 23,这是一个开源LLM家族,也与OpenAI、Meta和Mistral等公司竞争。Cohere以专注于多语言应用而闻名,作为其名称中的数字Aya 23,它被训练成精通23种不同的语言。

这一系列语言旨在为世界上近一半的人口提供服务,以实现更具包容性的人工智能。


该模型在判别和生成任务方面都优于其前身Aya 101和其他广泛使用的模型,如Mistral 7B v2(而不是最新发布的v3)和谷歌的Gemma。例如,Cohere声称Aya 23在多语言MMLU任务中比之前的Aya 101模型提高了41%,这是一个衡量模型一般知识水平的综合基准。

Aya 23有两种尺寸:80亿(8B)和350亿(35B)参数。较小的型号(8B)经过优化,可用于消费级硬件,而较大的型号(35B)在各种任务中提供顶级性能,但需要更强大的硬件。

Cohere说,Aya 23模型是使用不同的多语言指令数据集进行微调的——来自161个不同数据集的5570万个例子——包括人工注释、翻译和合成来源。这一全面的微调过程确保了跨各种任务和语言的高质量性能。

在翻译和摘要等生成性任务中,Cohere声称其Aya 23模型优于其前身和竞争对手,并引用了spBLEU翻译任务和RougeL摘要等各种基准和指标。一些新的体系结构变化——旋转位置嵌入(RoPE)、分组查询注意力(GQA)和SwiGLU微调功能——提高了效率和有效性。

Aya 23的多语言基础确保了这些模型能够适应各种现实世界的应用,并使其成为多语言人工智能项目的完善工具。


本文 币圈资讯互联网,转载保留链接!网址:http://43688.com/?id=103

声明

文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请联系QQ:453809000 举报,一经查实,本站将立刻删除。

搜索
排行榜
标签列表