VLLM

Create chat completion (OpenAI-compatible)

post

Create a chat completion using vLLM (OpenAI-compatible API).

Available Models: openai/gpt-oss-120b

Required Parameters

Parameter

Type

Description

model

string

Model ID: openai/gpt-oss-120b

messages

array

Array of message objects with role and content

Optional Parameters

Parameter

Type

Default

Description

reasoning_effort

string

Reasoning depth: low, medium, high. Omit to use model default.

include_reasoning

boolean

Include reasoning in response. Omit to use model default.

max_completion_tokens

integer

Max tokens to generate (preferred)

max_tokens

integer

Max tokens (deprecated, use max_completion_tokens)

min_tokens

integer

Minimum tokens before stopping

temperature

float

Sampling temperature (0.0-2.0)

top_p

float

Nucleus sampling threshold (0.0-1.0)

top_k

integer

Top-k sampling (-1 to disable)

min_p

float

Minimum probability threshold (0.0-1.0)

frequency_penalty

float

Penalize frequent tokens (-2.0 to 2.0)

presence_penalty

float

Penalize repeated topics (-2.0 to 2.0)

repetition_penalty

float

Repetition penalty (1.0 = none)

integer

Number of completions (1-10)

stop

string/array

Stop sequence(s)

seed

integer

Random seed for reproducibility

logprobs

boolean

Return log probabilities

top_logprobs

integer

Number of top logprobs (0-20)

logit_bias

object

Token bias mapping

user

string

End-user identifier

Async Mode

Set async: true to get a task_address immediately and poll for results.

Header parameters

x-api-keyany ofOptional

stringOptional

nullOptional

Body

OpenAI-compatible chat completion request for vLLM.

Supports standard OpenAI API parameters plus vLLM-specific extensions. Parameters are passed directly to the vLLM provider without transformation.

modelstringRequired

Model identifier. Available: openai/gpt-oss-120b

Example: openai/gpt-oss-120b

max_tokensany ofOptional

Maximum tokens to generate (deprecated, use max_completion_tokens)

integer · min: 1 · max: 32768Optional

nullOptional

max_completion_tokensany ofOptional

Maximum tokens to generate (preferred over max_tokens)

integer · min: 1 · max: 32768Optional

nullOptional

min_tokensany ofOptional

Minimum tokens to generate before stopping

integerOptional

nullOptional

temperatureany ofOptional

Sampling temperature (0.0 = deterministic)

number · max: 2Optional

nullOptional

top_pany ofOptional

Top-p (nucleus) sampling

number · max: 1Optional

nullOptional

top_kany ofOptional

Top-k sampling (-1 to disable)

integer · min: -1Optional

nullOptional

min_pany ofOptional

Minimum probability threshold for sampling

number · max: 1Optional

nullOptional

frequency_penaltyany ofOptional

Frequency penalty for token repetition

number · min: -2 · max: 2Optional

nullOptional

presence_penaltyany ofOptional

Presence penalty for topic repetition

number · min: -2 · max: 2Optional

nullOptional

repetition_penaltyany ofOptional

Repetition penalty (1.0 = no penalty)

numberOptional

nullOptional

nany ofOptional

Number of completions to generate

integer · min: 1 · max: 10Optional

nullOptional

stopany ofOptional

Stop sequence(s) - generation stops when encountered

stringOptional

string[]Optional

nullOptional

seedany ofOptional

Random seed for reproducibility

integerOptional

nullOptional

streamany ofOptional

Enable streaming responses (not yet supported)

Default: false

booleanOptional

nullOptional

reasoning_effortany ofOptional

Reasoning effort level: 'low', 'medium', 'high'. Omit to use model default.

string · enumOptionalPossible values:

nullOptional

include_reasoningany ofOptional

Include reasoning content in response. Omit to use model default.

booleanOptional

nullOptional

logprobsany ofOptional

Return log probabilities of output tokens

booleanOptional

nullOptional

top_logprobsany ofOptional

Number of most likely tokens to return at each position

integer · max: 20Optional

nullOptional

logit_biasany ofOptional

Token ID to bias value mapping (-100 to 100)

nullOptional

userany ofOptional

Unique identifier for the end-user

stringOptional

nullOptional

modeany ofOptional

Routing mode: 'auto' or 'direct' (vLLM is direct-only)

Default: auto

string · enumOptionalPossible values:

nullOptional

asyncany ofOptional

Async mode: returns task_address immediately, poll /v2/tasks/{task_address} for result. Default: false (sync mode).

Default: false

booleanOptional

nullOptional

Responses

200

Successful Response

application/json

202

Task accepted (async mode). Poll the poll_url for status.

application/json

422

Validation Error

application/json

post

/v2/vllm/v1/chat/completions

POST /v2/vllm/v1/chat/completions HTTP/1.1
Content-Type: application/json
Accept: */*
Content-Length: 92

{
  "model": "openai/gpt-oss-120b",
  "messages": [
    {
      "role": "user",
      "content": "Hello, how are you?"
    }
  ]
}

{
  "id": "text",
  "object": "chat.completion",
  "created": 1,
  "model": "text",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "text",
        "reasoning_content": "text",
        "refusal": "text",
        "ANY_ADDITIONAL_PROPERTY": "anything"
      },
      "finish_reason": "text",
      "logprobs": null,
      "ANY_ADDITIONAL_PROPERTY": "anything"
    }
  ],
  "usage": {
    "prompt_tokens": 0,
    "completion_tokens": 0,
    "total_tokens": 0,
    "ANY_ADDITIONAL_PROPERTY": "anything"
  },
  "system_fingerprint": "text",
  "task_address": "text",
  "mode": "text",
  "ANY_ADDITIONAL_PROPERTY": "anything"
}

List available models (OpenAI-compatible)

get

List all available vLLM models (OpenAI-compatible format).

Returns all active vLLM models. Access control is enforced at request time via tier model_restrictions - this endpoint shows what's available.

Responses

200

Successful Response

application/json

get

/v2/vllm/v1/models

GET /v2/vllm/v1/models HTTP/1.1
Accept: */*

200

Successful Response

{
  "object": "list",
  "data": [
    {
      "id": "openai/gpt-oss-120b",
      "object": "model",
      "created": 1,
      "owned_by": "opengpu",
      "ANY_ADDITIONAL_PROPERTY": "anything"
    }
  ],
  "ANY_ADDITIONAL_PROPERTY": "anything"
}

PreviousAPI Explorer NextOllama

Last updated 3 days ago

hashtagCreate chat completion (OpenAI-compatible)

hashtagRequired Parameters

hashtagOptional Parameters

hashtagAsync Mode

hashtagList available models (OpenAI-compatible)

Create chat completion (OpenAI-compatible)

Required Parameters

Optional Parameters

Async Mode

List available models (OpenAI-compatible)