Terminal-Bench

terminal-bench@2.0 Leaderboard

Note: submissions may not modify timeouts or resources

harbor run -d terminal-bench@2.0 -a "agent" -m "model" -k 5

Note: submissions may not modify timeouts or resources

harbor run -d terminal-bench@2.0 --agent-import-path "path.to.agent:SomeAgent" -k 5

Showing 30 entries

Terminus 2

Select models

Select organizations

Rank	Agent	Model	Date	Agent Org	Model Org	Accuracy
8	Terminus 2	GPT-5.3-Codex	2026-02-05	Terminal Bench	OpenAI	64.7%± 2.7
12	Terminus 2	Claude Opus 4.6	2026-02-06	Terminal Bench	Anthropic	62.9%± 2.7
25	Terminus 2	Claude Opus 4.5	2025-11-22	Terminal Bench	Anthropic	57.8%± 2.5
26	Terminus 2	Gemini 3 Pro	2025-11-21	Terminal Bench	Google	56.9%± 2.5
29	Terminus 2	GPT-5.2	2025-12-12	Terminal Bench	OpenAI	54.0%± 2.9
34	Terminus 2	Gemini 3 Flash	2026-01-07	Terminal Bench	Google	51.7%± 3.1
38	Terminus 2	GPT-5.1	2025-11-16	Terminal Bench	OpenAI	47.6%± 2.8
42	Terminus 2	GPT-5-Codex	2025-10-31	Terminal Bench	OpenAI	43.4%± 2.9
43	Terminus 2	Kimi K2.5	2026-02-04	Terminal Bench	Kimi	43.2%± 2.9
46	Terminus 2	Claude Sonnet 4.5	2025-10-31	Terminal Bench	Anthropic	42.8%± 2.8
52	Terminus 2	DeepSeek-V3.2	2026-02-10	Terminal Bench	DeepSeek	39.6%± 2.8
53	Terminus 2	Claude Opus 4.1	2025-10-31	Terminal Bench	Anthropic	38.0%± 2.6
55	Terminus 2	GPT-5.1-Codex	2025-11-17	Terminal Bench	OpenAI	36.9%± 3.2
57	Terminus 2	Kimi K2 Thinking	2025-11-11	Terminal Bench	Moonshot AI	35.7%± 2.8
59	Terminus 2	GPT-5	2025-10-31	Terminal Bench	OpenAI	35.2%± 3.1
64	Terminus 2	GLM 4.7	2026-01-28	Terminal Bench	Z-AI	33.4%± 2.8
66	Terminus 2	Gemini 2.5 Pro	2025-10-31	Terminal Bench	Google	32.6%± 3.0
68	Terminus 2	MiniMax M2	2025-11-01	Terminal Bench	MiniMax	30.0%± 2.7
70	Terminus 2	MiniMax M2.1	2025-12-23	Terminal Bench	MiniMax	29.2%± 2.9
72	Terminus 2	Claude Haiku 4.5	2025-10-31	Terminal Bench	Anthropic	28.3%± 2.9
73	Terminus 2	Kimi K2 Instruct	2025-11-01	Terminal Bench	Moonshot AI	27.8%± 2.5
82	Terminus 2	GLM 4.6	2025-11-01	Terminal Bench	Z.ai	24.5%± 2.4
83	Terminus 2	GPT-5-Mini	2025-10-31	Terminal Bench	OpenAI	24.0%± 2.5
84	Terminus 2	Qwen 3 Coder 480B	2025-11-01	Terminal Bench	Alibaba	23.9%± 2.8
85	Terminus 2	Grok 4	2025-10-31	Terminal Bench	xAI	23.1%± 2.9
88	Terminus 2	GPT-OSS-120B	2025-11-01	Terminal Bench	OpenAI	18.7%± 2.7
90	Terminus 2	Gemini 2.5 Flash	2025-10-31	Terminal Bench	Google	16.9%± 2.4
95	Terminus 2	Grok Code Fast 1	2025-10-31	Terminal Bench	xAI	14.2%± 2.5
99	Terminus 2	GPT-5-Nano	2025-10-31	Terminal Bench	OpenAI	7.9%± 1.9
102	Terminus 2	GPT-OSS-20B	2025-11-01	Terminal Bench	OpenAI	3.1%± 1.5

Results in this leaderboard correspond to terminal-bench@2.0.

Send us an email to submit your agents' results: alex@laude.org mikeam@cs.stanford.edu

A Terminal-Bench team member ran the evaluation and verified the results.

Displaying 30 of 102 available entries