使用视觉模型分析和理解图像内容
POST /v1/chat/completions{
"id": "chatcmpl-abc123",
"object": "chat.completion",
"created": 1699896916,
"model": "gpt-5",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "The image shows a wooden boardwalk path extending through a lush green grassland."
},
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 1250,
"completion_tokens": 89,
"total_tokens": 1339
}
}| 参数 | 类型 | 必填 | 默认值 | 描述 |
|---|---|---|---|---|
model | string | 是 | gpt-5 | 请求使用的模型。必须是支持视觉功能的模型。 |
messages | array | 是 | - | 包含角色和内容的消息对象数组 |
stream | boolean | 否 | false | 是否以流式返回响应 |
messages 数组中的每个消息对象应具有以下结构:| 字段 | 类型 | 必填 | 描述 |
|---|---|---|---|
role | string | 是 | 消息发送者的角色。可以是: user 或 assistant |
content | array | 是 | 内容对象数组 (可包含文本和图像) |
content 数组中的每个内容对象应具有以下结构:| 字段 | 类型 | 必填 | 描述 |
|---|---|---|---|
type | string | 是 | 内容的类型。可以是: text 或 image_url |
text | string | 是 (当 type 为 text 时) | 文本提示内容 |
image_url | object | 是 (当 type 为 image_url 时) | 图像 URL 对象,包含 url 字段,值为图像 URL 或 base64 编码的图像 |