Published by dugufeng
Author: dugufeng
Tags: language:chinese, example, vision, multimodal, qwen-vl
Dify Version: v1.9.2+(请填写你测试通过的 Dify 版本)
一个简单的多模态工作流,输入一张图片,使用 Qwen-VL 模型返回对图片的中文描述。
langgenius/siliconflow 供应商。imageUrl 变量中上传一张图片。text 输出(即图片描述)。file (文件) 类型的输入,变量名为 imageUrl。Qwen/Qwen2.5-VL-32B-Instruct 多模态模型。imageUrl 变量传入。text (字符串) 类型的输出,即 LLM 生成的描述。

vision/image-recognition-cn