Terminal-Bench

terminal-bench@2.0 Leaderboard

Note: submissions may not modify timeouts or resources

harbor run -d terminal-bench/terminal-bench-2 -a "agent" -m "model" -k 5

Note: submissions may not modify timeouts or resources

harbor run -d terminal-bench/terminal-bench-2 --agent-import-path "path.to.agent:SomeAgent" -k 5

Showing 73 entries

Select agents

Select models

Select organizations

Verified only

Rank	Agent	Model	Date	Agent Org	Model Org	Accuracy
4	Codex CLI	GPT-5.5	2026-04-23	OpenAI	OpenAI	82.2%± 2.2
15	Simple Codex	GPT-5.3-Codex	2026-02-06	OpenAI	OpenAI	75.1%± 2.4
24	Ante	Gemini 3 Pro	2026-01-06	Antigma Labs	Google	69.4%± 2.1
32	Terminus 2	GPT-5.3-Codex	2026-02-05	Terminal-Bench	OpenAI	64.7%± 2.7
35	Codex CLI	GPT-5.2	2025-12-18	OpenAI	OpenAI	62.9%± 3.0
36	Terminus 2	Claude Opus 4.6	2026-02-06	Terminal-Bench	Anthropic	62.9%± 2.7
44	Codex CLI	GPT-5.1-Codex-Max	2025-11-24	OpenAI	OpenAI	60.4%± 2.7
50	Claude Code	Claude Opus 4.6	2026-02-07	Anthropic	Anthropic	58.0%± 2.9
51	Crux	GPT-5.1-Codex	2025-11-16	Roam	OpenAI	57.8%± 2.9
52	Terminus 2	Claude Opus 4.5	2025-11-22	Terminal-Bench	Anthropic	57.8%± 2.5
54	Terminus 2	Gemini 3 Pro	2025-11-21	Terminal-Bench	Google	56.9%± 2.5
57	Terminus 2	GPT-5.2	2025-12-12	Terminal-Bench	OpenAI	54.0%± 2.9
61	Claude Code	Claude Opus 4.5	2025-12-18	Anthropic	Anthropic	52.1%± 2.5
62	OpenHands	Claude Opus 4.5	2026-01-04	OpenHands	Anthropic	51.9%± 2.9
63	Terminus 2	Gemini 3 Flash	2026-01-07	Terminal-Bench	Google	51.7%± 3.1
66	Codex CLI	GPT-5	2025-11-04	OpenAI	OpenAI	49.6%± 2.9
67	Terminus 2	GPT-5.1	2025-11-16	Terminal-Bench	OpenAI	47.6%± 2.8
71	Codex CLI	GPT-5-Codex	2025-11-04	OpenAI	OpenAI	44.3%± 2.7
72	OpenHands	GPT-5	2025-11-02	OpenHands	OpenAI	43.8%± 3.0
73	Terminus 2	GPT-5-Codex	2025-10-31	Terminal-Bench	OpenAI	43.4%± 2.9
74	Terminus 2	Kimi K2.5	2026-02-04	Terminal-Bench	Kimi	43.2%± 2.9
76	Crux	GPT-5.1-Codex-Mini	2025-11-17	Roam	OpenAI	43.1%± 3.0
78	Terminus 2	Claude Sonnet 4.5	2025-10-31	Terminal-Bench	Anthropic	42.8%± 2.8
81	OpenHands	Claude Sonnet 4.5	2025-11-02	OpenHands	Anthropic	42.6%± 2.8
82	Mini-SWE-Agent	Claude Sonnet 4.5	2025-11-03	Princeton	Anthropic	42.5%± 2.8
84	Mini-SWE-Agent	GPT-5-Codex	2025-11-03	Princeton	OpenAI	41.3%± 2.8
85	Claude Code	Claude Sonnet 4.5	2025-11-04	Anthropic	Anthropic	40.1%± 2.9
87	Terminus 2	Claude Opus 4.1	2025-10-31	Terminal-Bench	Anthropic	38.0%± 2.6
88	OpenHands	Claude Opus 4.1	2025-11-02	OpenHands	Anthropic	36.9%± 2.7
89	Terminus 2	GPT-5.1-Codex	2025-11-17	Terminal-Bench	OpenAI	36.9%± 3.2
90	Crux	MiniMax M2.1	2025-12-22	Roam	MiniMax	36.6%± 2.9
91	Terminus 2	Kimi K2 Thinking	2025-11-11	Terminal-Bench	Moonshot AI	35.7%± 2.8
93	Terminus 2	GPT-5	2025-10-31	Terminal-Bench	OpenAI	35.2%± 3.1
94	Mini-SWE-Agent	Claude Opus 4.1	2025-11-03	Princeton	Anthropic	35.1%± 2.5
95	Claude Code	Claude Opus 4.1	2025-11-04	Anthropic	Anthropic	34.8%± 2.9
97	Mini-SWE-Agent	GPT-5	2025-11-03	Princeton	OpenAI	33.9%± 2.9
98	Terminus 2	GLM 4.7	2026-01-28	Terminal-Bench	Z-AI	33.4%± 2.8
100	Terminus 2	Gemini 2.5 Pro	2025-10-31	Terminal-Bench	Google	32.6%± 3.0
101	Codex CLI	GPT-5-Mini	2025-11-04	OpenAI	OpenAI	31.9%± 3.0
102	Terminus 2	MiniMax M2	2025-11-01	Terminal-Bench	MiniMax	30.0%± 2.7
103	Mini-SWE-Agent	Claude Haiku 4.5	2025-11-03	Princeton	Anthropic	29.8%± 2.5
104	Terminus 2	MiniMax M2.1	2025-12-23	Terminal-Bench	MiniMax	29.2%± 2.9
105	OpenHands	GPT-5-Mini	2025-11-02	OpenHands	OpenAI	29.2%± 2.8
106	Terminus 2	Claude Haiku 4.5	2025-10-31	Terminal-Bench	Anthropic	28.3%± 2.9
107	Terminus 2	Kimi K2 Instruct	2025-11-01	Terminal-Bench	Moonshot AI	27.8%± 2.5
108	Claude Code	Claude Haiku 4.5	2025-11-04	Anthropic	Anthropic	27.5%± 2.8
109	OpenHands	Grok 4	2025-11-02	OpenHands	xAI	27.2%± 3.1
111	OpenHands	Kimi K2 Instruct	2025-11-02	OpenHands	Moonshot AI	26.7%± 2.7
112	Mini-SWE-Agent	Gemini 2.5 Pro	2025-11-03	Princeton	Google	26.1%± 2.5
113	Mini-SWE-Agent	Grok Code Fast 1	2025-11-03	Princeton	xAI	25.8%± 2.6
114	Mini-SWE-Agent	Grok 4	2025-11-03	Princeton	xAI	25.4%± 2.9
115	OpenHands	Qwen 3 Coder 480B	2025-11-02	OpenHands	Alibaba	25.4%± 2.6
117	Terminus 2	GLM 4.6	2025-11-01	Terminal-Bench	Z.ai	24.5%± 2.4
118	Terminus 2	GPT-5-Mini	2025-10-31	Terminal-Bench	OpenAI	24.0%± 2.5
119	Terminus 2	Qwen 3 Coder 480B	2025-11-01	Terminal-Bench	Alibaba	23.9%± 2.8
120	Terminus 2	Grok 4	2025-10-31	Terminal-Bench	xAI	23.1%± 2.9
122	Mini-SWE-Agent	GPT-5-Mini	2025-11-03	Princeton	OpenAI	22.2%± 2.6
124	Gemini CLI	Gemini 2.5 Pro	2025-11-04	Google	Google	19.6%± 2.9
126	Terminus 2	GPT-OSS-120B	2025-11-01	Terminal-Bench	OpenAI	18.7%± 2.7
127	Mini-SWE-Agent	Gemini 2.5 Flash	2025-11-03	Princeton	Google	17.1%± 2.5
129	Terminus 2	Gemini 2.5 Flash	2025-10-31	Terminal-Bench	Google	16.9%± 2.4
130	OpenHands	Gemini 2.5 Flash	2025-11-02	OpenHands	Google	16.4%± 2.4
131	OpenHands	Gemini 2.5 Pro	2025-11-02	OpenHands	Google	16.4%± 2.8
132	Gemini CLI	Gemini 2.5 Flash	2025-11-04	Google	Google	15.4%± 2.3
133	Mini-SWE-Agent	GPT-OSS-120B	2025-11-03	Princeton	OpenAI	14.2%± 2.3
134	Terminus 2	Grok Code Fast 1	2025-10-31	Terminal-Bench	xAI	14.2%± 2.5
135	OpenHands	Claude Haiku 4.5	2025-11-02	OpenHands	Anthropic	13.9%± 2.7
136	Codex CLI	GPT-5-Nano	2025-11-04	OpenAI	OpenAI	11.5%± 2.3
137	OpenHands	GPT-5-Nano	2025-11-02	OpenHands	OpenAI	9.9%± 2.1
139	Terminus 2	GPT-5-Nano	2025-10-31	Terminal-Bench	OpenAI	7.9%± 1.9
140	Mini-SWE-Agent	GPT-5-Nano	2025-11-03	Princeton	OpenAI	7.0%± 1.9
141	Mini-SWE-Agent	GPT-OSS-20B	2025-11-03	Princeton	OpenAI	3.4%± 1.4
142	Terminus 2	GPT-OSS-20B	2025-11-01	Terminal-Bench	OpenAI	3.1%± 1.5

Results in this leaderboard correspond to terminal-bench@2.0.

Submission instructions can be found at harborframework/terminal-bench-2-leaderboard

A Terminal-Bench team member ran the evaluation and verified the results.

Displaying 73 of 142 available entries