Stable Diffusion是一种基于深度学习的文本到图像生成模型,于2022年发布。它能够根据文本描述生成详细的图像,同时也可以应用于其他任务,例如图生图,生成简短视频等。
Stable Diffusion是一种潜在扩散模型,由慕尼黑大学的CompVis研究团体开发。该模型由初创公司Stability Al,CompVis与Runway合作开发,同时得到了EleutherAl和LAION的支持。
Stable Diffusion的代码和模型权重已经公开发布,并且可以在大多数配备有适度GPU的电脑硬件上运行。相比之下,之前的专有文生图模型(如DALL-E和Midjourney)只能通过云计算服务访问。
Stable Diffusion的核心概念包括:自动编码器、U-Net、文本编码器等。
1、自动编码器
自动编码器(VAE)由两个主要部分组成:编码器和解码器。编码器将图像转换为低维潜在表示,该表示将作为输入传递给 U_Net。解码器则相反,它将潜在表示转换回图像。
2、U-Net
U-Net是一种全卷积网络,用于语义分割,它由两个分支组成:编码器和解码器。编码器将输入图像分成大小相等的补丁,然后将这些补丁传递到下一级处理,解码器将这些补丁重新组合成输出图像。U-Net的优点是它可以在不同的尺度上进行预测,并且可以使用较少的训练数据来训练模型 。
3、文本编码器
文本编码器会将输入提示转换为 U-Net 可以理解的嵌入空间,一般是一个简单的基于Transformer的编码器,它将标记序列映射到潜在文本嵌入序列。
© 版权声明
免责声明:得设创意所发布的一切资源及软件的文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络和用户自行分享,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版,得到更好的正版服务。如有侵权请邮件与我们联系处理。
THE END