亚马逊云科技生成式AI视觉Pipeline,成功实现LLM与视频生成模型的有效融合

2023-10-31 15:20:28来源:今日热点网  

背景介绍

Claude2

在2023年9月底,亚马逊云科技宣布将Antrophic公司的Claude2模型纳入亚马逊云科技Amazon Bedrock服务并正式上线。作为ChatGPT-4最强有力的竞争对手,Claude2的语料库截至2023年初。其单次对话可处理高达10万个token的长文本,使其在总结归纳等涉及超长文本的任务中表现尤为突出。此外,许多影视和游戏领域的专家认为,Claude2在故事创作和角色扮演等方面展现出更加拟人化和准确的表达特点。

ComfyUI

ComfyUI是一个基于节点式工作流的WebUI,其核心采用了稳定扩散视频生成模型。它通过将稳定扩散的流程分解成多个节点,实现了更加精细化的流程定制和更高的结果可重用性。相比于SD WebUI,ComfyUI的节点工作流需要一定的学习曲线,因此普及程度不如前者。然而,在特定领域的项目中,ComfyUI依然显示出以下优势,并且受到了越来越多的青睐:

支持json文件或者图片来共享节点工作流,提高了项目组内部的工作效率(流程+质量)

由于节点内部的优化,其整体的出图速度对于SD WebUI快了10%-20%左右

在超分或者出大图的情况下也不容易将显卡打爆,得到黑图

主流的ControlNet,LoRA等等都已支持,缺少的模块,也可以通过custom_nodes方式安装

节点式工作方式,在游戏工作室(UE蓝图背景)会有天然的亲和

由于其存储为结构化的数据结构,支持各种语言编程

架构图

本文将基于Amazon Cloud Service能力,利用Bedrock上面的Claude2模型作为驱动来输出关键提示词,然后输入到构建在SageMaker上的ComfyUI,最后的视频素材存储到S3上面,来实现自动生成视频的管线。

本方案通过CloudFormation进行一件部署,主要的架构图如下,其中包含的组建有:

SageMaker Notebook:基于g5.2xlarge的笔记本实列,包含项目运行环境以及核心代码

Claud2:Amazon Bedrock LLM大模型

S3:存储图片和视频

ComfyUI:提供了节点式的界面,进行GenAI推理网站

Ngrok:第三方反向代理软件,方便外部访问ComfyUI

实现步骤

申请Ngrok Authtoken

Ngrok是一个第三方的反向代理应用,通过安全可靠的内网穿透能力提供了较为方便的网络访问端点。在使得ComfyUI能够公开访问之前,需要去Ngrok的官方网站申请一个免费Authtoken。

CloudFormation安装

获取到安装模板后,需要填写如下参数:

StackName:CloudFormtion堆栈名字,方便管理

NotebookInstanceName:SageMaker笔记本的名字

NotebookInstanceType:SageMaker笔记本实列类型,建议g5系列

VolumeSizeInGB:SageMaker笔记本硬盘大小,建议300G以上

SageMakerIAMRole:如果留空,则会创建新的笔记本执行角色

DefaultCodeRepository:项目的Github地址

等待5-10分钟后,可以在CloudFormation Outputs中,或者SageMaker中找到对应的笔记本连接:

进去后,发现项目源码也下载好了,具体内容如下:

comfyui-Sagemaker-notebook.ipynb:安装和运行ComfyUI

comfyui-Bedrock-Claude2-notebook.ipynb:Claude2调用ComfyUI管线

workflows:ComfyUI生成视频管线

langchain_tasks:langchain模版文件

utils:python脚本

安装运行ComfyUI

进入/home/ec2-user/SageMaker/SageMaker-ComfyUI,打开comfyui-Sagemaker-notebook.ipynb,顺序执行脚本即可

将前面获取的Ngrok的authtoken替换到对应的位置

获取ComfyUI项目,安装环境依赖

按需获取VAE,Checkpoints,ControlNets,Lora等等

推荐安装ComfyUI的插件:comfyUI-manager,animatediff,upscaler等等

运行Ngrok Agent+ComfyUI

成功起来后,即可获得一个公开的访问地址(蓝色文字部分,第一次访问,可能会看到警告,可以忽略直接访问)

如果想停止对外服务,停止SageMaker notebook即可

如果想回收资源,找到对应的CloudFormation删除即可

试管线

当ComfyUI的网站起来以后,可以做以下测试(将图片拖到ComfyUI即可使用)

txt2img:

txt2gif:

可编程管线

后面将基于下面的管线制作视频,导入ComfyUI。

使用可编程管线之前,需要开启ComfyUI的Enable Dev mode Option模式,然后保存为API模式。

Claude2安装和设置

选择Claude2的一个重要原因:对比Claude2 Vs GPT4,关于天安门升旗仪式攻略这个问题,Claude2的答案覆盖了最重要的时间和地点,而GPT4只是一些简单文字输出,没有任何具体的数字。

进入目录/home/ec2-user/SageMaker/SageMaker-ComfyUI,获取笔记comfyui-Bedrock-Claude2-notebook.ipynb,顺序执行脚本即可。

测试生成短片代码,生成目录为/home/ec2-user/SageMaker/outputs/:

安装Bedrock以及Claude2所需的依赖

测试Amazon Bedrock是否安装成功

提示词工程

如果上面都通过后,接下来就可以尝试让Claude2去生成各种prompt即可。

通过上面例子,可以看到prompt设置需要比较具体地描述业务需求。总结下来的一个比较有效的prompt工程格式为:

角色描述+业务描述

业务约束条件

参考输出例子

嵌入可替换的参数

总结

本文提供了一个快速搭建Claude2与ComfyUI的解决方案,通过程序化手段巧妙地将这两个LLM和视频生成模型融合,使其在实际业务场景中具备更显著的价值。

我们欣喜地看到,Claude2具有单次可处理10万个token的强大能力,能够帮助快速解析理解各种长度的文本提示,并生成所需的高质量输出结果。基于Claude2的这些输出,可以进一步驱动ComfyUI的视频生成流程,只需要替换其中的关键参数,就可以实现个性化的视频生成。通过这个方案,成功实现了LLM与视频生成模型的有效融合,使之为实际业务带来更多可能性。

原标题:释放Claude2和ComfyUI超强能力,基于Amazon Bedrock和SageMaker的GenAI视觉管线

原链接:https://aws.amazon.com/cn/blogs/china/a-genai-visual-pipeline-based-on-amazon-bedrock-and-sagemaker/

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

相关阅读

404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx

相关词

推荐阅读