Safety & Ethics

AI Bias

Systematic errors in AI systems that produce unfair, discriminatory, or inaccurate outcomes for certain groups.

Definition

AI bias occurs when models reflect, amplify, or introduce biases from their training data or design choices, leading to systematically unfair outcomes. Sources include historical bias (training data reflects past discrimination), representation bias (underrepresented groups in training data), measurement bias (inconsistent data collection), and aggregation bias (one model applied inappropriately across different groups).

High-stakes examples include facial recognition misidentifying people of colour, credit scoring algorithms with racial disparities, hiring algorithms preferring male candidates, and medical models trained predominantly on Western populations performing poorly on others.

Mitigation approaches include diverse training data collection, fairness metrics (demographic parity, equalised odds), adversarial debiasing, and ongoing bias auditing. Regulatory frameworks in the EU (AI Act) and US (EEOC guidance) increasingly require fairness assessments for high-risk AI applications.

Examples

COMPAS recidivism algorithm (racial bias)
Amazon hiring algorithm (gender bias)
Facial recognition systems (accuracy disparities)

Related Terms

AI Safety

The field focused on ensuring AI systems remain beneficial, controllable, and aligned with human values as they become more capable.

AI Alignment

The challenge of ensuring AI systems reliably pursue goals that align with human intentions and values.

Interpretability / Explainability

The ability to understand, explain, and audit how an AI model arrives at its outputs.

Explore

← All glossary terms AI concept guides AI timeline Browse companies