“紫东太初”是全球首个千亿参数三模态大模型,由武汉人工智能研究院、中科院自动化所与华为联合研发,开拓性地实现了图像、文本、语音三个模态数据之间的“统一表示”与“相互生成”,理解和生成能力更接近人类,向通用人工智能迈出了重要一步。
“紫东太初”首次实现了三模态间相互转换和生成,其核心原理是视觉、文本、语音不同模态通过各自编码器映射到统一语义空间,然后通过多头自注意力机制学习模态之间的语义关联以及特征对齐,形成多模态统一知识表示,再利用编码后的多模态特征,然后通过多头自注意力机制进行通过解码器分别生成文本、图像和语音。
“紫东太初”多模态大模型拥有三大关键技术和六大核心能力。