Treinando um modelo de linguagem que entende aprendizagem

Fluência não é pedagogia

Modelos de fundação de uso geral são notavelmente fluentes. Pergunte a um sobre o ciclo de Krebs e ele produzirá uma resposta coerente e bem estruturada. O que ele não fará de forma confiável é explicar o ciclo de Krebs de maneira diferente para um aluno que acabou de confundi-lo com a glicólise do que para outro que entende os insumos mas não o rendimento energético. Fluência é uma propriedade da linguagem. Pedagogia é relacional — depende de um modelo do aluno, não apenas de um modelo do assunto. O ajuste de instrução padrão otimiza para ser útil e inofensivo a um usuário anônimo. Ele não otimiza para acompanhar a compreensão em evolução de uma pessoa específica ao longo de uma sessão, uma semana ou um curso. Essa lacuna é o que o nosso pipeline de treinamento existe para fechar.

O que falta a um modelo de fundação

Estado do aluno — o que essa pessoa específica entende agora e onde está a lacuna
Dificuldade calibrada — ajustar a complexidade da explicação à prontidão demonstrada, sem adivinhar
Falha produtiva — saber quando reter a resposta e fazer uma pergunta orientadora em vez disso
Reparo de concepções errôneas — reconhecer um modelo mental errado, não apenas uma resposta errada
Contenção — parar na profundidade certa em vez de despejar tudo o que o modelo sabe

O problema dos dados vem primeiro

Toda decisão de treinamento downstream é limitada pelos dados disponíveis para aprender. Texto genérico da web ensina um modelo a parecer uma explicação. Não ensina um modelo o que acontece depois da explicação — se o aluno entendeu, o que perguntou a seguir, onde travou. Construímos nossos corpora de treinamento em torno de traços de interação: diálogos reais de tutoria, anotados conforme onde a confusão do aluno surgiu e qual resposta realmente a resolveu, além de diálogos sintéticos gerados para cobrir lacunas que os dados reais não alcançam. A camada de anotação é a parte cara. Uma transcrição sem um rótulo para "essa explicação funcionou" ou "essa precisou de uma segunda tentativa" é só texto. O rótulo é o que a transforma em um sinal de treinamento para pedagogia, e não para prosa.

Uma transcrição sem um rótulo do que funcionou é só texto. O rótulo é o que a transforma em um sinal de treinamento para pedagogia, e não para prosa.

O pipeline de treinamento, em ordem

Continuação de pré-treinamento de domínio — pré-treinamento adicional em texto educacional e de tutoria curado, não apenas dados de instrução
Ajuste fino supervisionado em transcrições de tutoria anotadas — explicações pareadas com resultados de aprendizagem rotulados
Ajuste fino direcionado a concepções errôneas — um dataset dedicado de padrões de erro conhecidos e as correções que os resolvem
Otimização de preferência — sinal de recompensa construído a partir de qual das duas explicações produziu melhor compreensão demonstrada, não qual um avaliador preferiu ler
Ajuste fino de calibração — penalizando respostas erradas confiantes com mais peso do que a incerteza honesta

Por que dados de preferência não podem ser só "qual resposta é melhor"

A maior parte da otimização de preferência na indústria pergunta a avaliadores humanos qual de duas saídas do modelo eles prefeririam ler. Esse sinal recompensa explicações que parecem satisfatórias — abrangentes, confiantes, bem organizadas. Não recompensa explicações que realmente ensinam. As duas frequentemente divergem: a resposta que resolve uma concepção errônea às vezes é mais curta, menos completa, e mais propensa a fazer uma pergunta ao aluno do que a entregar tudo de uma vez. Substituímos a preferência do avaliador por um resultado medido sempre que possível — se o aluno respondeu corretamente uma pergunta de recuperação subsequente após essa explicação, em comparação com a alternativa. Onde esse sinal é muito lento ou esparso para treinar diretamente, usamos um modelo de recompensa treinado especificamente para prevê-lo, em vez de um modelo de recompensa treinado em preferência humana geral.

3 estágiosPasses de ajuste finoDomínio → concepção errônea → preferência, não um único passe

2×Peso em erros confiantesNa perda de calibração, vs. incerteza honesta

0Dados de treinamento externosDados de interação de alunos nunca saem dos sistemas da Arconite

A coisa mais difícil de treinar em um modelo não é conhecimento. É a disciplina de não dizer tudo o que sabe no momento em que é perguntado.

A avaliação precisa parecer tutoria, não benchmark

Benchmarks padrão de modelos de linguagem medem se um modelo produz uma resposta final correta. Isso é quase irrelevante para um modelo de tutoria, que é julgado pelo caminho até a resposta do aluno, não pela sua própria. Nosso framework de avaliação roda o modelo contra alunos simulados com concepções errôneas específicas e realistas, e o avalia conforme se o estado de crença simulado do aluno se move em direção ao correto ao longo de uma conversa — e quantos turnos isso leva. Um modelo que dá a explicação perfeita de livro no primeiro turno mas deixa a concepção errônea intocada pontua pior do que um que faz uma pergunta esclarecedora primeiro e a resolve até o terceiro turno. Esse é o modelo que termina dentro do Talos e alcança um aluno através do Gripho: não o mais fluente, o que mais confiavelmente muda o que um aluno entende.

Fluência não é pedagogia

O que falta a um modelo de fundação

O problema dos dados vem primeiro

O pipeline de treinamento, em ordem

Por que dados de preferência não podem ser só "qual resposta é melhor"

A avaliação precisa parecer tutoria, não benchmark

Mais da Arconite

Por que retenção é a única métrica que importa

Âncoras de memória: recall espaçado dentro da conversa

Roteando modelos por tarefa cognitiva